सांख्यिकीय मॉडलिंग: तरीके, विवरण, अनुप्रयोग

विषयसूची:

सांख्यिकीय मॉडलिंग: तरीके, विवरण, अनुप्रयोग
सांख्यिकीय मॉडलिंग: तरीके, विवरण, अनुप्रयोग
Anonim

सांख्यिकीय मॉडलिंग में सन्निहित धारणाएं संभाव्यता वितरण के एक सेट का वर्णन करती हैं, जिनमें से कुछ को वितरण को पर्याप्त रूप से अनुमानित माना जाता है। डेटा का एक विशिष्ट सेट परिभाषा से चुना जाता है। सांख्यिकीय मॉडलिंग में निहित संभाव्यता वितरण वे हैं जो सांख्यिकीय मॉडल को अन्य, गैर-सांख्यिकीय, गणितीय मॉडल से अलग करते हैं।

Image
Image

गणित से जुड़ाव

यह वैज्ञानिक पद्धति मुख्य रूप से गणित में निहित है। सिस्टम का सांख्यिकीय मॉडलिंग आमतौर पर गणितीय समीकरणों द्वारा दिया जाता है जो एक या अधिक यादृच्छिक चर और संभवतः अन्य गैर-यादृच्छिक चर से संबंधित होते हैं। इस प्रकार, एक सांख्यिकीय मॉडल एक "सिद्धांत का औपचारिक प्रतिनिधित्व" है (हरमन एडर, केनेथ बोलन के हवाले से)।

सभी सांख्यिकीय परिकल्पना परीक्षण और सभी सांख्यिकीय अनुमान सांख्यिकीय मॉडल से लिए गए हैं। अधिक सामान्यतः, सांख्यिकीय मॉडल सांख्यिकीय अनुमान के आधार का हिस्सा होते हैं।

सांख्यिकी के तरीकेमॉडलिंग

अनौपचारिक रूप से, एक सांख्यिकीय मॉडल को एक निश्चित संपत्ति के साथ एक सांख्यिकीय धारणा (या सांख्यिकीय मान्यताओं का सेट) के रूप में माना जा सकता है: यह धारणा हमें किसी भी घटना की संभावना की गणना करने की अनुमति देती है। एक उदाहरण के रूप में, साधारण छह-पक्षीय पासों की एक जोड़ी पर विचार करें। हम हड्डी के बारे में दो अलग-अलग सांख्यिकीय मान्यताओं का अध्ययन करेंगे।

पहली सांख्यिकीय धारणा सांख्यिकीय मॉडल का गठन करती है, क्योंकि केवल एक धारणा के साथ हम किसी भी घटना की संभावना की गणना कर सकते हैं। वैकल्पिक सांख्यिकीय धारणा एक सांख्यिकीय मॉडल का गठन नहीं करती है, क्योंकि केवल एक धारणा के साथ हम प्रत्येक घटना की संभावना की गणना नहीं कर सकते हैं।

विशिष्ट सांख्यिकीय मॉडल।
विशिष्ट सांख्यिकीय मॉडल।

उपरोक्त उदाहरण में पहली धारणा के साथ, किसी घटना की संभावना की गणना करना आसान है। हालांकि, कुछ अन्य उदाहरणों में, गणना जटिल या अव्यवहारिक भी हो सकती है (उदाहरण के लिए, इसके लिए लाखों वर्षों की गणना की आवश्यकता हो सकती है)। एक सांख्यिकीय मॉडल का गठन करने वाली धारणा के लिए, यह कठिनाई स्वीकार्य है: गणना करना व्यावहारिक रूप से संभव नहीं है, केवल सैद्धांतिक रूप से संभव है।

मॉडल के उदाहरण

मान लीजिए कि हमारे पास समान रूप से वितरित बच्चों के साथ स्कूली बच्चों की आबादी है। एक बच्चे की ऊंचाई स्थिर रूप से उम्र से संबंधित होगी: उदाहरण के लिए, जब हम जानते हैं कि एक बच्चा 7 साल का है, तो यह इस संभावना को प्रभावित करता है कि बच्चा 5 फीट लंबा (लगभग 152 सेमी) होगा। हम इस संबंध को एक रेखीय प्रतिगमन मॉडल में औपचारिक रूप दे सकते हैं, उदाहरण के लिए: विकास=b0 + b1agei+ εi, जहां b0 प्रतिच्छेदन है, b1 वह पैरामीटर है जिसके द्वारा वृद्धि पूर्वानुमान प्राप्त करते समय आयु को गुणा किया जाता है, i त्रुटि शब्द है। इसका मतलब है कि उम्र के हिसाब से ऊंचाई का अनुमान कुछ त्रुटि के साथ लगाया जाता है।

एक मान्य मॉडल सभी डेटा बिंदुओं से मेल खाना चाहिए। तो एक सीधी रेखा (ऊंचाई=b0 + b1agei) एक डेटा मॉडल के लिए एक समीकरण नहीं हो सकती है - जब तक कि यह सभी डेटा बिंदुओं पर बिल्कुल फिट न हो, यानी सभी डेटा बिंदु पूरी तरह से रेखा पर स्थित हों। सभी डेटा बिंदुओं को फिट करने के लिए मॉडल के लिए त्रुटि शब्द εi को समीकरण में शामिल किया जाना चाहिए।

लिंग सांख्यिकी।
लिंग सांख्यिकी।

सांख्यिकीय निष्कर्ष निकालने के लिए, हमें पहले i के लिए कुछ प्रायिकता बंटनों को मान लेना चाहिए। उदाहरण के लिए, हम मान सकते हैं कि i का वितरण गाऊसी है, जिसका माध्य शून्य है। इस मामले में, मॉडल में 3 पैरामीटर होंगे: b0, b1 और गाऊसी वितरण का प्रसरण।

सामान्य विवरण

एक सांख्यिकीय मॉडल गणितीय मॉडल का एक विशेष वर्ग है। सांख्यिकीय मॉडल को अन्य गणितीय मॉडलों से अलग करने वाली बात यह है कि यह गैर-नियतात्मक है। इसका उपयोग सांख्यिकीय डेटा को मॉडल करने के लिए किया जाता है। इस प्रकार, गणितीय समीकरणों के साथ परिभाषित एक सांख्यिकीय मॉडल में, कुछ चर के विशिष्ट मान नहीं होते हैं, बल्कि इसके बजाय संभाव्यता वितरण होते हैं; अर्थात्, कुछ चर स्टोकेस्टिक हैं। ऊपर के उदाहरण में, एक स्टोकेस्टिक चर है; इस चर के बिना, मॉडल थानियतात्मक होगा।

सांख्यिकीय मॉडल अक्सर सांख्यिकीय विश्लेषण और मॉडलिंग में उपयोग किए जाते हैं, भले ही मॉडलिंग की जा रही भौतिक प्रक्रिया नियतात्मक हो। उदाहरण के लिए, सिक्कों को उछालना सैद्धांतिक रूप से एक नियतात्मक प्रक्रिया है; फिर भी इसे आमतौर पर स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया जाता है।

वार्मिंग आँकड़े।
वार्मिंग आँकड़े।

पैरामीट्रिक मॉडल

पैरामीट्रिक मॉडल सबसे अधिक उपयोग किए जाने वाले सांख्यिकीय मॉडल हैं। अर्ध-पैरामीट्रिक और गैर-पैरामीट्रिक मॉडल के बारे में, सर डेविड कॉक्स ने कहा: "वे आम तौर पर वितरण की संरचना और आकार के बारे में कम धारणाएं शामिल करते हैं, लेकिन आमतौर पर मजबूत स्वतंत्रता धारणाएं होती हैं।" अन्य सभी उल्लिखित मॉडलों की तरह, उनका भी अक्सर गणितीय मॉडलिंग की सांख्यिकीय पद्धति में उपयोग किया जाता है।

बहुस्तरीय मॉडल

बहुस्तरीय मॉडल (जिसे पदानुक्रमित रैखिक मॉडल, नेस्टेड डेटा मॉडल, मिश्रित मॉडल, यादृच्छिक गुणांक, यादृच्छिक प्रभाव मॉडल, यादृच्छिक पैरामीटर मॉडल या विभाजित मॉडल के रूप में भी जाना जाता है) सांख्यिकीय पैरामीटर मॉडल हैं जो एक से अधिक स्तरों पर भिन्न होते हैं। एक उदाहरण एक छात्र उपलब्धि मॉडल है जिसमें व्यक्तिगत छात्रों के लिए मीट्रिक और साथ ही उन कक्षाओं के लिए मीट्रिक शामिल हैं जिनमें छात्रों को समूहीकृत किया जाता है। इन मॉडलों को रैखिक मॉडल (विशेष रूप से, रैखिक प्रतिगमन) के सामान्यीकरण के रूप में माना जा सकता है, हालांकि उन्हें गैर-रैखिक मॉडल तक भी बढ़ाया जा सकता है। ये मॉडल बन गए हैंएक बार पर्याप्त कंप्यूटिंग शक्ति और सॉफ्टवेयर उपलब्ध होने के बाद बहुत अधिक लोकप्रिय हो गया।

खंड आँकड़े।
खंड आँकड़े।

बहुस्तरीय मॉडल अनुसंधान परियोजनाओं के लिए विशेष रूप से उपयुक्त हैं जहां प्रतिभागियों के लिए डेटा एक से अधिक स्तरों (यानी, नेस्टेड डेटा) पर व्यवस्थित किया जाता है। विश्लेषण की इकाइयाँ आमतौर पर व्यक्ति (निचले स्तर पर) होती हैं जो संदर्भ / समग्र इकाइयों (उच्च स्तर पर) के भीतर निहित होती हैं। जबकि बहुस्तरीय मॉडल में डेटा का निम्नतम स्तर आम तौर पर व्यक्तिगत होता है, व्यक्तियों के बार-बार माप पर भी विचार किया जा सकता है। इस प्रकार, बहुस्तरीय मॉडल एकतरफा या बहुभिन्नरूपी दोहराए गए उपायों के विश्लेषण के लिए एक वैकल्पिक प्रकार का विश्लेषण प्रदान करते हैं। विकास वक्रों में व्यक्तिगत अंतरों पर विचार किया जा सकता है। इसके अलावा, बहुस्तरीय मॉडल को एएनसीओवीए के विकल्प के रूप में इस्तेमाल किया जा सकता है, जहां इलाज के अंतरों के परीक्षण से पहले आश्रित चर स्कोर कोवरिएट्स (जैसे, व्यक्तिगत अंतर) के लिए समायोजित किया जाता है। बहुस्तरीय मॉडल एंकोवा द्वारा आवश्यक एकसमान प्रतिगमन ढलानों की धारणा के बिना इन प्रयोगों का विश्लेषण करने में सक्षम हैं।

बहुस्तरीय मॉडल का उपयोग कई स्तरों वाले डेटा के लिए किया जा सकता है, हालांकि दो-स्तरीय मॉडल सबसे आम हैं और इस लेख का बाकी हिस्सा इन्हीं पर केंद्रित है। आश्रित चर की जांच विश्लेषण के निम्नतम स्तर पर की जानी चाहिए।

वायुमंडलीय दबाव ग्राफ।
वायुमंडलीय दबाव ग्राफ।

मॉडल चयन

मॉडल चयनसांख्यिकीय मॉडलिंग के ढांचे के भीतर किए गए डेटा दिए गए उम्मीदवार मॉडल के एक सेट से चयन करने का कार्य है। सबसे सरल मामलों में, पहले से मौजूद डेटा सेट पर विचार किया जाता है। हालांकि, कार्य में डिजाइनिंग प्रयोग भी शामिल हो सकते हैं ताकि एकत्र किया गया डेटा मॉडल चयन कार्य के अनुकूल हो। समान भविष्य कहनेवाला या व्याख्यात्मक शक्ति वाले उम्मीदवार मॉडल को देखते हुए, सबसे सरल मॉडल सबसे अच्छा विकल्प होने की संभावना है (ओकाम का उस्तरा)।

कोनिशी और कितागावा कहते हैं, "अधिकांश सांख्यिकीय अनुमान समस्याओं को सांख्यिकीय मॉडलिंग से संबंधित समस्या माना जा सकता है।" इसी तरह, कॉक्स ने कहा, "सांख्यिकीय मॉडल में विषय वस्तु का अनुवाद कैसे किया जाता है, यह अक्सर विश्लेषण का सबसे महत्वपूर्ण हिस्सा होता है।"

मॉडल चयन अनिश्चितता के तहत निर्णय या अनुकूलन उद्देश्यों के लिए कम्प्यूटेशनल मॉडल के एक बड़े सेट से कुछ प्रतिनिधि मॉडल चुनने की समस्या का भी उल्लेख कर सकता है।

ग्राफिक पैटर्न

ग्राफिक मॉडल, या संभाव्य ग्राफिक मॉडल, (पीजीएम) या संरचित संभाव्य मॉडल, एक संभाव्य मॉडल है जिसके लिए ग्राफ यादृच्छिक चर के बीच एक सशर्त संबंध की संरचना को व्यक्त करता है। वे आमतौर पर संभाव्यता सिद्धांत, सांख्यिकी (विशेषकर बायेसियन सांख्यिकी) और मशीन लर्निंग में उपयोग किए जाते हैं।

ग्राफ के साथ सांख्यिकीय मॉडल।
ग्राफ के साथ सांख्यिकीय मॉडल।

अर्थमितीय मॉडल

अर्थमितीय मॉडल सांख्यिकीय मॉडल हैं जिनका उपयोग किया जाता हैअर्थमिति। एक अर्थमितीय मॉडल सांख्यिकीय संबंधों को परिभाषित करता है जो माना जाता है कि एक विशेष आर्थिक घटना से संबंधित विभिन्न आर्थिक मात्राओं के बीच मौजूद हैं। एक अर्थमितीय मॉडल एक नियतात्मक आर्थिक मॉडल से प्राप्त किया जा सकता है जो अनिश्चितता को ध्यान में रखता है, या एक आर्थिक मॉडल से जो स्वयं स्टोकेस्टिक है। हालांकि, अर्थमितीय मॉडल का उपयोग करना भी संभव है जो किसी विशेष आर्थिक सिद्धांत से बंधे नहीं हैं।

सिफारिश की: