मल्टीवेरिएट स्केलिंग (एमडीएस) डेटा सेट में अलग-अलग मामलों की समानता के स्तर को देखने के लिए एक उपकरण है। यह सूचना के विज़ुअलाइज़ेशन में उपयोग किए जाने वाले संबंधित समन्वय विधियों के एक सेट को संदर्भित करता है, विशेष रूप से दूरी मैट्रिक्स में निहित जानकारी को प्रदर्शित करने के लिए। यह गैर-रैखिक आयामी कमी का एक रूप है। एमडीएस एल्गोरिथम का उद्देश्य प्रत्येक वस्तु को एन-आयामी अंतरिक्ष में इस तरह से रखना है कि वस्तुओं के बीच की दूरी को यथासंभव सर्वोत्तम रूप से संरक्षित किया जा सके। प्रत्येक वस्तु को तब प्रत्येक N आयामों में निर्देशांक निर्दिष्ट किए जाते हैं।
एमडीएस ग्राफ के आयामों की संख्या 2 से अधिक हो सकती है और एक प्राथमिकता निर्दिष्ट की जाती है। N=2 का चयन 2D स्कैटरप्लॉट के लिए ऑब्जेक्ट प्लेसमेंट को अनुकूलित करता है। आप आलेख में चित्रों में बहुआयामी स्केलिंग के उदाहरण देख सकते हैं। रूसी में प्रतीकों वाले उदाहरण विशेष रूप से उदाहरण हैं।
सार
बहुआयामी स्केलिंग की विधि (एमएमएस,एमडीएस) शास्त्रीय उपकरणों का एक विस्तारित सेट है जो वजन के साथ ज्ञात दूरी के नुकसान कार्यों और इनपुट मैट्रिसेस के एक सेट के लिए अनुकूलन प्रक्रिया को सामान्य बनाता है। इस संदर्भ में, एक उपयोगी हानि फ़ंक्शन को तनाव कहा जाता है, जिसे अक्सर तनाव प्रमुखीकरण नामक प्रक्रिया द्वारा कम किया जाता है।
मैनुअल
बहुआयामी स्केलिंग के लिए कई विकल्प हैं। एमडीएस प्रोग्राम समाधान प्राप्त करने के लिए स्वचालित रूप से लोड को कम करता है। गैर-मीट्रिक एमडीएस एल्गोरिथम का मूल एक दोहरा अनुकूलन प्रक्रिया है। सबसे पहले, इष्टतम मोनोटोनिक निकटता परिवर्तन पाया जाना चाहिए। दूसरा, कॉन्फ़िगरेशन बिंदुओं को बेहतर ढंग से तैनात किया जाना चाहिए ताकि उनकी दूरियां स्केल किए गए निकटता मानों से यथासंभव निकटता से मेल खाती हों।
विस्तार
आंकड़ों में मीट्रिक बहुआयामी स्केलिंग का एक विस्तार जहां लक्ष्य स्थान एक मनमानी चिकनी गैर-यूक्लिडियन स्थान है। जहां अंतर सतह पर दूरियां हैं और लक्ष्य स्थान एक अलग सतह है। विषयगत कार्यक्रम आपको एक सतह से दूसरे में न्यूनतम विरूपण के साथ एक अनुलग्नक खोजने की अनुमति देते हैं।
कदम
बहुभिन्नरूपी स्केलिंग का उपयोग करके अध्ययन करने के कई चरण हैं:
- समस्या का निरूपण। आप किन चरों की तुलना करना चाहते हैं? आप कितने चरों की तुलना करना चाहते हैं? अध्ययन का उपयोग किस उद्देश्य के लिए किया जाएगा?
- इनपुट डेटा प्राप्त करना।उत्तरदाताओं से प्रश्नों की एक श्रृंखला पूछी जाती है। उत्पादों की प्रत्येक जोड़ी के लिए, उन्हें समानता का मूल्यांकन करने के लिए कहा जाता है (आमतौर पर 7-बिंदु लिकर्ट पैमाने पर बहुत समान से बहुत भिन्न)। पहला प्रश्न कोका-कोला/पेप्सी के लिए हो सकता है, उदाहरण के लिए, बीयर के लिए अगला प्रश्न, डॉ. पेपर के लिए अगला, आदि। प्रश्नों की संख्या ब्रांडों की संख्या पर निर्भर करती है।
वैकल्पिक दृष्टिकोण
दो अन्य दृष्टिकोण हैं। "अवधारणात्मक डेटा: व्युत्पन्न दृष्टिकोण" नामक एक तकनीक है जिसमें उत्पादों को विशेषताओं में विघटित किया जाता है और मूल्यांकन एक अर्थ अंतर पैमाने पर किया जाता है। एक अन्य तरीका "वरीयता डेटा दृष्टिकोण" है, जिसमें उत्तरदाताओं से समानता के बजाय वरीयताओं के बारे में पूछा जाता है।
इसमें निम्नलिखित चरण होते हैं:
- एमडीएस सांख्यिकीय कार्यक्रम का शुभारंभ। प्रक्रिया को करने के लिए सॉफ्टवेयर कई सांख्यिकीय सॉफ्टवेयर पैकेजों में उपलब्ध है। अक्सर मीट्रिक एमडीएस (जो अंतराल या अनुपात स्तर डेटा से संबंधित है) और गैर-मीट्रिक एमडीएस (जो क्रमिक डेटा से संबंधित है) के बीच एक विकल्प होता है।
- मापों की संख्या निर्धारित करना। शोधकर्ता को यह निर्धारित करना होगा कि वह कंप्यूटर पर कितने माप बनाना चाहता है। अधिक माप, बेहतर सांख्यिकीय फिट, लेकिन परिणामों की व्याख्या करना उतना ही कठिन है।
- परिणाम प्रदर्शित करें और माप को परिभाषित करें - सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणाम प्रदर्शित करेगा। नक्शा प्रत्येक उत्पाद को प्रदर्शित करेगा (आमतौर पर 2डी में)।स्थान)। उत्पादों की एक-दूसरे से निकटता या तो उनकी समानता या वरीयता को इंगित करती है, जिसके आधार पर किस दृष्टिकोण का उपयोग किया गया था। हालाँकि, माप वास्तव में सिस्टम व्यवहार के मापन के अनुरूप कैसे होते हैं, यह हमेशा स्पष्ट नहीं होता है। अनुरूपता का व्यक्तिपरक निर्णय यहां किया जा सकता है।
- विश्वसनीयता और वैधता के लिए परिणामों की जांच करें - एमडीएस प्रक्रिया द्वारा हिसाब किए जा सकने वाले स्केल किए गए डेटा भिन्नता के अनुपात को निर्धारित करने के लिए आर-वर्ग की गणना करें। स्क्वायर आर 0.6 को न्यूनतम स्वीकार्य स्तर माना जाता है। R वर्ग 0.8 को मीट्रिक स्केलिंग के लिए अच्छा माना जाता है, जबकि 0.9 को गैर-मीट्रिक स्केलिंग के लिए अच्छा माना जाता है।
विभिन्न परीक्षण
अन्य संभावित परीक्षण हैं क्रुस्कल-प्रकार के तनाव परीक्षण, विभाजित डेटा परीक्षण, डेटा स्थिरता परीक्षण, और पुन: परीक्षण विश्वसनीयता परीक्षण। परीक्षा परिणाम के बारे में विस्तार से लिखें। मैपिंग के साथ, कम से कम दूरी का माप (जैसे सोरेनसन इंडेक्स, जैककार्ड इंडेक्स) और विश्वसनीयता (जैसे स्ट्रेस वैल्यू) निर्दिष्ट किया जाना चाहिए।
एल्गोरिथ्म (जैसे क्रुस्कल, माथर) देना भी अत्यधिक वांछनीय है जो अक्सर उपयोग किए गए प्रोग्राम (कभी-कभी एल्गोरिथम रिपोर्ट की जगह) द्वारा निर्धारित किया जाता है, यदि आपने एक प्रारंभिक कॉन्फ़िगरेशन दिया है या एक यादृच्छिक विकल्प है, तो संख्या आयाम रन, मोंटे कार्लो परिणाम, पुनरावृत्तियों की संख्या, स्थिरता स्कोर, और प्रत्येक अक्ष (आर-वर्ग) का आनुपातिक विचरण।
दृश्य सूचना और डेटा विश्लेषण विधिबहुआयामी स्केलिंग
सूचना विज़ुअलाइज़ेशन मानव संज्ञान को बढ़ाने के लिए अमूर्त डेटा के इंटरैक्टिव (दृश्य) प्रतिनिधित्व का अध्ययन है। सार डेटा में संख्यात्मक और गैर-संख्यात्मक दोनों डेटा शामिल हैं जैसे कि पाठ्य और भौगोलिक जानकारी। हालांकि, सूचना विज़ुअलाइज़ेशन वैज्ञानिक विज़ुअलाइज़ेशन से अलग है: "यह सूचनात्मक (सूचना विज़ुअलाइज़ेशन) है जब एक स्थानिक प्रतिनिधित्व चुना जाता है, और विज्ञान (वैज्ञानिक दृश्य) जब एक स्थानिक प्रतिनिधित्व दिया जाता है।"
सूचना विज़ुअलाइज़ेशन का क्षेत्र मानव-कंप्यूटर संपर्क, कंप्यूटर विज्ञान अनुप्रयोगों, ग्राफिक्स, दृश्य डिजाइन, मनोविज्ञान और व्यावसायिक विधियों में अनुसंधान से उभरा है। इसे वैज्ञानिक अनुसंधान, डिजिटल लाइब्रेरी, डेटा माइनिंग, वित्तीय डेटा, बाजार अनुसंधान, उत्पादन नियंत्रण, आदि में एक आवश्यक घटक के रूप में तेजी से उपयोग किया जा रहा है।
तरीके और सिद्धांत
सूचना विज़ुअलाइज़ेशन से पता चलता है कि विज़ुअलाइज़ेशन और इंटरैक्शन के तरीके मानव धारणा की समृद्धि का लाभ उठाते हैं, जिससे उपयोगकर्ता एक साथ बड़ी मात्रा में जानकारी को देख, खोज और समझ सकते हैं। सूचना विज़ुअलाइज़ेशन का उद्देश्य अमूर्त डेटा, सूचना को सहज तरीके से संप्रेषित करने के लिए दृष्टिकोण बनाना है।
डेटा विश्लेषण उद्योग में सभी अनुप्रयुक्त अनुसंधान और समस्या समाधान का एक अभिन्न अंग है। ज़्यादातरडेटा विश्लेषण के लिए मौलिक दृष्टिकोण विज़ुअलाइज़ेशन (हिस्टोग्राम, स्कैटर प्लॉट, सतह प्लॉट, ट्री मैप, समानांतर समन्वय प्लॉट, आदि), सांख्यिकी (परिकल्पना परीक्षण, प्रतिगमन, पीसीए, आदि), डेटा विश्लेषण (मिलान, आदि) हैं।.d.) और मशीन सीखने के तरीके (क्लस्टरिंग, वर्गीकरण, निर्णय पेड़, आदि)।
इन दृष्टिकोणों में, सूचना विज़ुअलाइज़ेशन या दृश्य डेटा विश्लेषण विश्लेषणात्मक कर्मचारियों के संज्ञानात्मक कौशल पर सबसे अधिक निर्भर है और असंरचित कार्रवाई योग्य अंतर्दृष्टि की खोज की अनुमति देता है जो केवल मानव कल्पना और रचनात्मकता द्वारा सीमित हैं। डेटा विज़ुअलाइज़ेशन की व्याख्या करने में सक्षम होने के लिए एक विश्लेषक को किसी भी जटिल तकनीक को सीखने की आवश्यकता नहीं है। सूचना विज़ुअलाइज़ेशन भी एक परिकल्पना निर्माण योजना है जो आमतौर पर अधिक विश्लेषणात्मक या औपचारिक विश्लेषण जैसे सांख्यिकीय परिकल्पना परीक्षण के साथ हो सकती है।
अध्ययन
विज़ुअलाइज़ेशन का आधुनिक अध्ययन कंप्यूटर ग्राफिक्स के साथ शुरू हुआ, जिसका उपयोग शुरू से ही वैज्ञानिक समस्याओं का अध्ययन करने के लिए किया जाता था। हालाँकि, प्रारंभिक वर्षों में, ग्राफिक्स शक्ति की कमी ने अक्सर इसकी उपयोगिता को सीमित कर दिया। विज़ुअलाइज़ेशन पर प्राथमिकता शुरू हुई। 1987 में विकसित करने के लिए, वैज्ञानिक कंप्यूटिंग में कंप्यूटर ग्राफिक्स और विज़ुअलाइज़ेशन के लिए विशेष सॉफ्टवेयर जारी करने के बाद से, IEEE कंप्यूटर सोसायटी और ACM SIGGRAPH द्वारा संयुक्त रूप से कई सम्मेलन और कार्यशालाएं आयोजित की गई हैं।
उन्होंने डेटा विज़ुअलाइज़ेशन, सूचना विज़ुअलाइज़ेशन और वैज्ञानिक विज़ुअलाइज़ेशन के सामान्य विषयों को कवर किया,साथ ही अधिक विशिष्ट क्षेत्रों जैसे वॉल्यूम रेंडरिंग।
सारांश
सामान्यीकृत बहुआयामी स्केलिंग (जीएमडीएस) मीट्रिक बहुआयामी स्केलिंग का एक विस्तार है जिसमें लक्ष्य स्थान गैर-यूक्लिडियन है। जब अंतर एक सतह पर दूरियां हैं, और लक्ष्य स्थान दूसरी सतह है, तो GMDS आपको न्यूनतम विरूपण के साथ एक सतह को दूसरे में घोंसला बनाने की अनुमति देता है।
GMDS अनुसंधान की एक नई पंक्ति है। वर्तमान में, मुख्य अनुप्रयोग विकृत वस्तु पहचान (उदाहरण के लिए, 3D चेहरा पहचान के लिए) और बनावट मानचित्रण हैं।
बहुआयामी स्केलिंग का उद्देश्य बहुआयामी डेटा का प्रतिनिधित्व करना है। बहुआयामी डेटा, यानी डेटा जिसे प्रतिनिधित्व करने के लिए दो या तीन से अधिक आयामों की आवश्यकता होती है, उसकी व्याख्या करना मुश्किल हो सकता है। सरलीकरण के लिए एक दृष्टिकोण यह मान लेना है कि ब्याज का डेटा एक उच्च-आयामी अंतरिक्ष में एक एम्बेडेड गैर-रेखीय मैनिफोल्ड पर निहित है। यदि संग्राहक का पर्याप्त आयाम कम है, तो डेटा को निम्न-आयामी स्थान में देखा जा सकता है।
गैर-रैखिक आयामीता में कमी के कई तरीके रैखिक तरीकों से संबंधित हैं। नॉनलाइनियर विधियों को मोटे तौर पर दो समूहों में वर्गीकृत किया जा सकता है: वे जो मैपिंग प्रदान करते हैं (या तो उच्च-आयामी स्थान से निम्न-आयामी एम्बेडिंग, या इसके विपरीत), और वे जो केवल विज़ुअलाइज़ेशन प्रदान करते हैं। मशीन लर्निंग के संदर्भ में, मैपिंग विधियों को इस रूप में देखा जा सकता हैफीचर निष्कर्षण का एक प्रारंभिक चरण, जिसके बाद पैटर्न पहचान एल्गोरिदम लागू किया जाता है। आमतौर पर वे जो केवल विज़ुअलाइज़ेशन देते हैं वे निकटता डेटा - यानी दूरी माप पर आधारित होते हैं। मनोविज्ञान और अन्य मानविकी में बहुआयामी स्केलिंग भी काफी सामान्य है।
यदि एट्रिब्यूट्स की संख्या बड़ी है, तो अद्वितीय संभावित स्ट्रिंग्स का स्थान भी घातीय रूप से बड़ा है। इस प्रकार, आयाम जितना बड़ा होगा, अंतरिक्ष को चित्रित करना उतना ही कठिन होगा। इससे काफी दिक्कत होती है। उच्च-आयामी डेटा पर काम करने वाले एल्गोरिदम में बहुत अधिक समय जटिलता होती है। डेटा को कम आयामों में कम करना अक्सर विश्लेषण एल्गोरिदम को अधिक कुशल बनाता है और मशीन लर्निंग एल्गोरिदम को अधिक सटीक भविष्यवाणियां करने में मदद कर सकता है। यही कारण है कि बहुआयामी डेटा स्केलिंग इतना लोकप्रिय है।