एक सांख्यिकीय मॉडल एक गणितीय प्रक्षेपण है जो कुछ नमूना डेटा की पीढ़ी के बारे में विभिन्न मान्यताओं का एक समूह है। इस शब्द को अक्सर बहुत आदर्श रूप में प्रस्तुत किया जाता है।
सांख्यिकीय मॉडल में व्यक्त की गई धारणाएं संभाव्यता वितरण का एक सेट दिखाती हैं। जिनमें से कई का उद्देश्य उस वितरण का सही अनुमान लगाना है जिससे सूचना का एक विशेष समूह तैयार किया जा रहा है। सांख्यिकीय मॉडल में निहित संभाव्यता वितरण अन्य गणितीय संशोधनों से प्रक्षेपण को अलग करते हैं।
सामान्य प्रक्षेपण
गणितीय मॉडल कुछ अवधारणाओं और भाषा का उपयोग कर प्रणाली का विवरण है। वे प्राकृतिक विज्ञान (जैसे भौतिकी, जीव विज्ञान, पृथ्वी विज्ञान, रसायन विज्ञान) और इंजीनियरिंग विषयों (जैसे कंप्यूटर विज्ञान, इलेक्ट्रिकल इंजीनियरिंग), साथ ही साथ सामाजिक विज्ञान (जैसे अर्थशास्त्र, मनोविज्ञान, समाजशास्त्र, राजनीति विज्ञान) पर लागू होते हैं।
मॉडल सिस्टम को समझाने में मदद कर सकता है औरविभिन्न घटकों के प्रभाव का अध्ययन करें, और व्यवहार की भविष्यवाणी करें।
गणितीय मॉडल कई रूप ले सकते हैं, जिनमें डायनेमिक सिस्टम, सांख्यिकीय अनुमान, अंतर समीकरण या गेम-थ्योरेटिक पैरामीटर शामिल हैं। ये और अन्य प्रकार ओवरलैप हो सकते हैं, और इस मॉडल में कई सार संरचनाएं शामिल हैं। सामान्य तौर पर, गणितीय अनुमानों में तार्किक घटक भी शामिल हो सकते हैं। कई मामलों में, वैज्ञानिक क्षेत्र की गुणवत्ता इस बात पर निर्भर करती है कि सैद्धांतिक रूप से विकसित गणितीय मॉडल बार-बार किए गए प्रयोगों के परिणामों से कितनी अच्छी तरह सहमत हैं। सैद्धांतिक प्रक्रियाओं और प्रयोगात्मक माप के बीच समझौते की कमी अक्सर महत्वपूर्ण प्रगति की ओर ले जाती है क्योंकि बेहतर सिद्धांत विकसित होते हैं।
भौतिक विज्ञान में, पारंपरिक गणितीय मॉडल में बड़ी संख्या में निम्नलिखित तत्व होते हैं:
- नियंत्रण समीकरण।
- अतिरिक्त सबमॉडल।
- समीकरणों को परिभाषित करें।
- संघटक समीकरण।
- धारणाएं और सीमाएं।
- प्रारंभिक और सीमा शर्तें।
- शास्त्रीय बाधाएं और गतिज समीकरण।
फॉर्मूला
एक सांख्यिकीय मॉडल, एक नियम के रूप में, गणितीय समीकरणों द्वारा निर्धारित किया जाता है जो एक या अधिक यादृच्छिक चर और संभवतः, अन्य स्वाभाविक रूप से होने वाले चर को जोड़ते हैं। इसी तरह, प्रक्षेपण को "एक अवधारणा की औपचारिक अवधारणा" माना जाता है।
सभी सांख्यिकीय परिकल्पना परीक्षण और सांख्यिकीय मूल्यांकन गणितीय मॉडल से अर्जित किए जाते हैं।
परिचय
अनौपचारिक रूप से, एक सांख्यिकीय मॉडल को एक विशिष्ट संपत्ति के साथ एक धारणा (या मान्यताओं के सेट) के रूप में देखा जा सकता है: यह किसी भी घटना की संभावना की गणना करने की अनुमति देता है। एक उदाहरण के रूप में, साधारण छह-पक्षीय पासों की एक जोड़ी पर विचार करें। हड्डी के बारे में दो अलग-अलग सांख्यिकीय मान्यताओं का पता लगाने की जरूरत है।
पहली धारणा है:
प्रत्येक पासे के लिए, एक संख्या (1, 2, 3, 4, 5, और 6) प्राप्त करने की प्रायिकता है: 1/6.
इस धारणा से, हम दोनों पासों की प्रायिकता की गणना कर सकते हैं: 1:1/6×1/6=1/36.
आम तौर पर, आप किसी भी घटना की संभावना की गणना कर सकते हैं। हालांकि, यह समझा जाना चाहिए कि किसी अन्य गैर-तुच्छ घटना की संभावना की गणना करना असंभव है।
केवल पहली राय एक सांख्यिकीय गणितीय मॉडल एकत्र करती है: इस तथ्य के कारण कि केवल एक धारणा के साथ प्रत्येक क्रिया की संभावना निर्धारित करना संभव है।
उपरोक्त नमूने में प्रारंभिक अनुमति के साथ, किसी घटना की संभावना को निर्धारित करना आसान है। कुछ अन्य उदाहरणों के साथ, गणना कठिन या अवास्तविक भी हो सकती है (उदाहरण के लिए, इसमें कई वर्षों की गणना की आवश्यकता हो सकती है)। एक सांख्यिकीय विश्लेषण मॉडल तैयार करने वाले व्यक्ति के लिए, ऐसी जटिलता को अस्वीकार्य माना जाता है: गणना का कार्यान्वयन व्यावहारिक रूप से असंभव और सैद्धांतिक रूप से असंभव नहीं होना चाहिए।
औपचारिक परिभाषा
गणितीय शब्दों में, एक प्रणाली के सांख्यिकीय मॉडल को आमतौर पर एक जोड़ी (एस, पी) के रूप में माना जाता है, जहां एस हैसंभावित अवलोकनों का सेट, यानी नमूना स्थान, और पी एस पर संभाव्यता वितरण का सेट है।
इस परिभाषा का अंतर्ज्ञान इस प्रकार है। यह माना जाता है कि कुछ डेटा उत्पन्न करने वाली प्रक्रिया के कारण "सत्य" संभाव्यता वितरण होता है।
सेट
यह वह है जो मॉडल के मापदंडों को निर्धारित करता है। पैरामीटराइजेशन के लिए आम तौर पर अलग-अलग वितरणों के परिणामस्वरूप अलग-अलग मानों की आवश्यकता होती है, अर्थात
होल्ड होना चाहिए (दूसरे शब्दों में, यह इंजेक्शन होना चाहिए)। आवश्यकता को पूरा करने वाले पैरामीट्रिज़ेशन को पहचान योग्य कहा जाता है।
उदाहरण
मान लें कि कुछ ऐसे छात्र हैं जो अलग-अलग उम्र के हैं। बच्चे की ऊंचाई जन्म के वर्ष से स्थिर रूप से संबंधित होगी: उदाहरण के लिए, जब एक स्कूली छात्र 7 वर्ष का होता है, तो यह वृद्धि की संभावना को प्रभावित करता है, केवल इतना है कि व्यक्ति 3 सेंटीमीटर से अधिक लंबा होगा।
आप इस दृष्टिकोण को एक सीधी रेखा प्रतिगमन मॉडल में औपचारिक रूप दे सकते हैं, उदाहरण के लिए, इस प्रकार है: ऊंचाई i=b 0 + b 1agei + i, जहां b 0 प्रतिच्छेदन है, b 1 वह पैरामीटर है जिसके द्वारा उम्र ऊंचाई निगरानी प्राप्त करते समय गुणा किया जाता है। यह त्रुटि शब्द है। यही है, यह मानता है कि एक निश्चित त्रुटि के साथ उम्र के अनुसार ऊंचाई का अनुमान लगाया जाता है।
एक वैध फॉर्म सभी सूचना बिंदुओं से मेल खाना चाहिए। इस प्रकार, रेक्टिलिनियर दिशा (स्तर i=b 0 + b 1agei) डेटा मॉडल के लिए एक समीकरण होने में सक्षम नहीं है - यदि यह स्पष्ट रूप से सभी बिंदुओं का उत्तर नहीं देता है। अर्थातअपवाद के बिना, सभी जानकारी लाइन पर त्रुटिपूर्ण रूप से निहित है। त्रुटि का मार्जिन εi को समीकरण में दर्ज किया जाना चाहिए ताकि फॉर्म पूरी तरह से जानकारी की सभी वस्तुओं से मेल खाता हो।
सांख्यिकीय निष्कर्ष निकालने के लिए, हमें पहले i के लिए कुछ प्रायिकता बंटनों को मान लेना चाहिए। उदाहरण के लिए, कोई यह मान सकता है कि का वितरण शून्य माध्य के साथ एक गाऊसी आकार है। इस मामले में, मॉडल में 3 पैरामीटर होंगे: बी 0, बी 1 और गाऊसी वितरण का विचरण।
आप औपचारिक रूप से मॉडल को (एस, पी) के रूप में निर्दिष्ट कर सकते हैं।
इस उदाहरण में, मॉडल को एस निर्दिष्ट करके परिभाषित किया गया है और इसलिए पी के बारे में कुछ धारणाएं बनाई जा सकती हैं। दो विकल्प हैं:
इस वृद्धि का अनुमान उम्र के एक रैखिक कार्य द्वारा लगाया जा सकता है;
कि सन्निकटन में त्रुटियां एक गाऊसी के अंदर वितरित की जाती हैं।
सामान्य टिप्पणी
मॉडल के सांख्यिकीय पैरामीटर गणितीय प्रक्षेपण का एक विशेष वर्ग है। क्या एक प्रजाति को दूसरे से अलग करता है? तो यह है कि सांख्यिकीय मॉडल गैर-नियतात्मक है। इस प्रकार, इसमें, गणितीय समीकरणों के विपरीत, कुछ चरों के कुछ निश्चित मूल्य नहीं होते हैं, बल्कि इसके बजाय संभावनाओं का वितरण होता है। यही है, व्यक्तिगत चर को स्टोकेस्टिक माना जाता है। ऊपर के उदाहरण में, एक स्टोकेस्टिक चर है। इसके बिना, प्रक्षेपण नियतात्मक होगा।
सांख्यिकीय मॉडल का निर्माण अक्सर उपयोग किया जाता है, भले ही भौतिक प्रक्रिया को नियतात्मक माना जाता है। उदाहरण के लिए, सिक्कों को उछालना, सिद्धांत रूप में, एक पूर्व निर्धारित क्रिया है।हालांकि, यह अभी भी ज्यादातर मामलों में स्टोकेस्टिक (बर्नौली प्रक्रिया के माध्यम से) के रूप में तैयार किया गया है।
कोनिशी और कितागावा के अनुसार, एक सांख्यिकीय मॉडल के लिए तीन लक्ष्य हैं:
- भविष्यवाणियां।
- सूचना खनन।
- स्टोकेस्टिक संरचनाओं का विवरण।
प्रोजेक्शन साइज
मान लें कि एक सांख्यिकीय भविष्यवाणी मॉडल है, मॉडल को पैरामीट्रिक कहा जाता है यदि O का एक परिमित आयाम है। हल में आपको यह लिखना होगा कि
जहाँ k एक धनात्मक पूर्णांक है (R किसी भी वास्तविक संख्या के लिए है)। यहाँ k को मॉडल का आयाम कहा जाता है।
एक उदाहरण के रूप में, हम मान सकते हैं कि सभी डेटा एक अविभाज्य गाऊसी वितरण से आता है:
इस उदाहरण में, k का आयाम 2 है।
और एक अन्य उदाहरण के रूप में, डेटा को (x, y) बिंदुओं से युक्त माना जा सकता है, जिसे गॉसियन अवशिष्ट (शून्य माध्य के साथ) के साथ एक सीधी रेखा में वितरित माना जाता है। तब सांख्यिकीय आर्थिक मॉडल का आयाम 3 के बराबर होता है: रेखा का प्रतिच्छेदन, उसका ढलान और अवशेषों के वितरण का विचरण। यह ध्यान दिया जाना चाहिए कि ज्यामिति में एक सीधी रेखा का आयाम 1 होता है।
यद्यपि उपरोक्त मान तकनीकी रूप से एकमात्र पैरामीटर है जिसका आयाम k है, कभी-कभी इसे k विशिष्ट मान माना जाता है। उदाहरण के लिए, एक-आयामी गाऊसी वितरण के साथ, ओ 2 के आकार वाला एकमात्र पैरामीटर है, लेकिन कभी-कभी इसे दो शामिल माना जाता हैव्यक्तिगत पैरामीटर - माध्य मान और मानक विचलन।
एक सांख्यिकीय प्रक्रिया मॉडल गैर-पैरामीट्रिक है यदि O मानों का सेट अनंत-आयामी है। यह अर्ध-पैरामीट्रिक भी है यदि इसमें परिमित-आयामी और अनंत-आयामी दोनों पैरामीटर हैं। औपचारिक रूप से, यदि k, O का आयाम है और n नमूनों की संख्या है, अर्ध-पैरामीट्रिक और गैर-पैरामीट्रिक मॉडल में
है
तो मॉडल सेमी-पैरामीट्रिक है। अन्यथा, प्रक्षेपण गैर-पैरामीट्रिक है।
पैरामीट्रिक मॉडल सबसे अधिक उपयोग किए जाने वाले आंकड़े हैं। अर्ध-पैरामीट्रिक और गैर-पैरामीट्रिक अनुमानों के बारे में, सर डेविड कॉक्स ने कहा:
"आमतौर पर, उनमें बनावट और वितरण आकार के बारे में सबसे कम परिकल्पनाएं शामिल होती हैं, लेकिन उनमें आत्मनिर्भरता के बारे में शक्तिशाली सिद्धांत शामिल होते हैं।"
नेस्टेड मॉडल
उन्हें बहुस्तरीय अनुमानों के साथ भ्रमित न करें।
दो सांख्यिकीय मॉडल नेस्टेड हैं यदि पहले के मापदंडों पर प्रतिबंध लगाकर पहले को दूसरे में परिवर्तित किया जा सकता है। उदाहरण के लिए, सभी गाऊसी वितरणों के सेट में शून्य-माध्य वितरण का एक नेस्टेड सेट होता है:
अर्थात, आपको शून्य माध्य के साथ वितरण प्राप्त करने के लिए सभी गाऊसी वितरणों के सेट में माध्य को सीमित करने की आवश्यकता है। दूसरे उदाहरण के रूप में, द्विघात मॉडल y=b 0 + b 1 x + b 2 x 2 + ε, ~N (0, σ 2) में एक एम्बेडेड रैखिक मॉडल y=है बी 0 + बी 1 x +, ε ~ एन (0,σ 2) - यानी पैरामीटर b2 0 के बराबर है।
इन दोनों उदाहरणों में, पहले मॉडल में दूसरे मॉडल की तुलना में उच्च आयामीता है। ऐसा अक्सर होता है, लेकिन हमेशा ऐसा नहीं होता है। एक अन्य उदाहरण सकारात्मक माध्य के साथ गाऊसी बंटन का समुच्चय है, जिसका आयाम 2 है।
मॉडल की तुलना
यह माना जाता है कि एक "सच्चा" संभाव्यता वितरण है जो इसे उत्पन्न करने वाली प्रक्रिया से प्रेरित देखे गए डेटा में अंतर्निहित है।
और साथ ही मॉडल की तुलना एक दूसरे के साथ की जा सकती है, खोजपूर्ण विश्लेषण या पुष्टिकरण का उपयोग करके। एक खोजपूर्ण विश्लेषण में, विभिन्न मॉडल तैयार किए जाते हैं और मूल्यांकन किया जाता है कि उनमें से प्रत्येक डेटा का कितनी अच्छी तरह वर्णन करता है। एक पुष्टिकरण विश्लेषण में, पहले से तैयार की गई परिकल्पना की तुलना मूल परिकल्पना से की जाती है। इसके लिए सामान्य मानदंड में P 2, बायेसियन कारक और सापेक्ष संभावना शामिल हैं।
कोनिशी और कितागावा का विचार
“सांख्यिकीय गणितीय मॉडल में अधिकांश समस्याओं को भविष्य कहनेवाला प्रश्न माना जा सकता है। वे आमतौर पर कई कारकों की तुलना के रूप में तैयार किए जाते हैं।”
इसके अलावा, सर डेविड कॉक्स ने कहा: "विषय से अनुवाद के रूप में, सांख्यिकीय मॉडल में समस्या अक्सर विश्लेषण का सबसे महत्वपूर्ण हिस्सा होती है।"