क्लस्टरिंग विधि: विवरण, बुनियादी अवधारणाएँ, अनुप्रयोग सुविधाएँ

विषयसूची:

क्लस्टरिंग विधि: विवरण, बुनियादी अवधारणाएँ, अनुप्रयोग सुविधाएँ
क्लस्टरिंग विधि: विवरण, बुनियादी अवधारणाएँ, अनुप्रयोग सुविधाएँ
Anonim

क्लस्टरिंग विधि वस्तुओं के एक समूह को इस तरह से समूहबद्ध करने का कार्य है कि वे एक ही समूह में अन्य उद्योगों की वस्तुओं की तुलना में एक दूसरे के समान हों। यह डेटा माइनिंग का प्राथमिक कार्य है और मशीन लर्निंग, पैटर्न रिकग्निशन, इमेज रिकग्निशन, इंफॉर्मेशन रिट्रीवल, डेटा कम्प्रेशन और कंप्यूटर ग्राफिक्स सहित कई क्षेत्रों में उपयोग की जाने वाली एक सामान्य सांख्यिकीय विश्लेषण तकनीक है।

अनुकूलन समस्या

क्लस्टरिंग विधि का उपयोग करना
क्लस्टरिंग विधि का उपयोग करना

क्लस्टरिंग विधि अपने आप में एक विशिष्ट एल्गोरिथम नहीं है, बल्कि एक सामान्य कार्य है जिसे हल करने की आवश्यकता है। यह विभिन्न एल्गोरिदम के साथ प्राप्त किया जा सकता है जो यह समझने में महत्वपूर्ण रूप से भिन्न होते हैं कि एक समूह क्या बनता है और इसे कुशलतापूर्वक कैसे खोजा जाए। मेटासब्जेक्ट्स के गठन के लिए क्लस्टरिंग पद्धति के उपयोग में एक समूह का उपयोग शामिल हैसदस्यों के बीच छोटी दूरी, अंतरिक्ष के घने क्षेत्र, अंतराल, या कुछ सांख्यिकीय वितरण। इसलिए, क्लस्टरिंग को एक बहुउद्देश्यीय अनुकूलन समस्या के रूप में तैयार किया जा सकता है।

उपयुक्त विधि और पैरामीटर सेटिंग्स (उपयोग करने के लिए दूरी फ़ंक्शन, घनत्व सीमा, या अपेक्षित समूहों की संख्या सहित) व्यक्तिगत डेटा सेट और परिणामों के इच्छित उपयोग पर निर्भर करते हैं। इस तरह का विश्लेषण एक स्वचालित कार्य नहीं है, बल्कि ज्ञान की खोज या इंटरैक्टिव बहु-उद्देश्य अनुकूलन की एक पुनरावृत्त प्रक्रिया है। इस क्लस्टरिंग पद्धति में परीक्षण और त्रुटि प्रयास शामिल हैं। परिणाम वांछित गुण प्राप्त करने तक डेटा प्रीप्रोसेसिंग और मॉडल पैरामीटर को संशोधित करना अक्सर आवश्यक होता है।

"क्लस्टरिंग" शब्द के अलावा, समान अर्थ वाले कई शब्द हैं, जिनमें स्वचालित वर्गीकरण, संख्यात्मक वर्गीकरण, दोनों विज्ञान और टाइपोलॉजिकल विश्लेषण शामिल हैं। मेटासब्जेक्ट संबंध बनाने के लिए क्लस्टरिंग पद्धति के उपयोग में अक्सर सूक्ष्म अंतर होते हैं। जबकि डेटा निष्कर्षण में परिणामी समूह रुचि रखते हैं, स्वचालित वर्गीकरण में यह पहले से ही भेदभावपूर्ण शक्ति है जो इन कार्यों को करती है।

क्लस्टर विश्लेषण 1932 में क्रोएबर के अनेक कार्यों पर आधारित था। इसे 1938 में जुबिन द्वारा और 1939 में रॉबर्ट ट्रायॉन द्वारा मनोविज्ञान में पेश किया गया था। और इन कार्यों का उपयोग कैटेल द्वारा 1943 से सिद्धांत में क्लस्टरिंग विधियों के वर्गीकरण को इंगित करने के लिए किया जाता रहा है।

अवधि

प्रयोगतरीका
प्रयोगतरीका

"क्लस्टर" की अवधारणा को ठीक से परिभाषित नहीं किया जा सकता है। यह एक कारण है कि इतने सारे क्लस्टरिंग तरीके क्यों हैं। एक आम भाजक है: डेटा वस्तुओं का एक समूह। हालांकि, विभिन्न शोधकर्ता विभिन्न मॉडलों का उपयोग करते हैं। और क्लस्टरिंग विधियों के इन उपयोगों में से प्रत्येक में अलग-अलग डेटा शामिल हैं। विभिन्न एल्गोरिदम द्वारा पाई गई अवधारणा इसके गुणों में काफी भिन्न है।

क्लस्टरिंग पद्धति का उपयोग करना निर्देशों के बीच अंतर को समझने की कुंजी है। विशिष्ट क्लस्टर पैटर्न में शामिल हैं:

  • सेंट्रोइड एस। यह, उदाहरण के लिए, जब k- साधन क्लस्टरिंग प्रत्येक क्लस्टर को एक माध्य वेक्टर के साथ दर्शाता है।
  • कनेक्टिविटी मॉडल एस. यह, उदाहरण के लिए, पदानुक्रमित क्लस्टरिंग है, जो दूरी कनेक्टिविटी के आधार पर मॉडल बनाता है।
  • वितरण मॉडल एस. इस मामले में, क्लस्टरिंग पद्धति का उपयोग करके समूहों को मेटासबजेक्ट सांख्यिकीय वितरण बनाने के लिए तैयार किया जाता है। जैसे बहुभिन्नरूपी सामान्य पृथक्करण, जो अपेक्षा अधिकतमकरण एल्गोरिथम पर लागू होता है।
  • घनत्व मॉडल एस. ये हैं, उदाहरण के लिए, DBSCAN (शोर के साथ स्थानिक क्लस्टरिंग एल्गोरिथम) और ऑप्टिक्स (स्ट्रक्चर डिटेक्शन के लिए ऑर्डर पॉइंट), जो क्लस्टर को डेटा स्पेस में जुड़े घने क्षेत्रों के रूप में परिभाषित करते हैं।
  • सबस्पेस मॉडल c. बाइक्लस्टरिंग (जिसे सह-क्लस्टरिंग या दो मोड के रूप में भी जाना जाता है) में, समूहों को दोनों तत्वों और उपयुक्त विशेषताओं के साथ मॉडल किया जाता है।
  • मॉडल एस. कुछ एल्गोरिदम नहीं करते हैंमेटा-विषय परिणाम उत्पन्न करने और केवल सूचना समूहीकरण प्रदान करने के लिए उनकी क्लस्टरिंग पद्धति के लिए परिष्कृत संबंध।
  • ग्राफ एस पर आधारित मॉडल। एक क्लिक, यानी नोड्स का एक सबसेट, जैसे कि किनारे के हिस्से में हर दो कनेक्शन को क्लस्टर आकार के प्रोटोटाइप के रूप में माना जा सकता है। कुल मांग के कमजोर होने को अर्ध-समूह के रूप में जाना जाता है। ठीक यही नाम एचसीएस क्लस्टरिंग एल्गोरिथम में प्रस्तुत किया गया है।
  • तंत्रिका मॉडल एस. सबसे प्रसिद्ध असुरक्षित नेटवर्क स्व-व्यवस्थित मानचित्र है। और यह ऐसे मॉडल हैं जिन्हें आमतौर पर मेटा-विषय परिणामों के गठन के लिए उपरोक्त क्लस्टरिंग विधियों में से एक या अधिक के समान माना जा सकता है। इसमें सबस्पेस सिस्टम शामिल हैं जब तंत्रिका नेटवर्क प्रिंसिपल या स्वतंत्र घटक विश्लेषण के आवश्यक रूप को लागू करते हैं।

यह शब्द, वास्तव में, ऐसे समूहों का एक समूह है, जिसमें आमतौर पर डेटा क्लस्टरिंग विधियों के सेट में सभी ऑब्जेक्ट होते हैं। इसके अलावा, यह एक दूसरे के साथ समूहों के संबंध को इंगित कर सकता है, जैसे कि एक दूसरे में निर्मित प्रणालियों का पदानुक्रम। समूहीकरण को निम्नलिखित पहलुओं में विभाजित किया जा सकता है:

  • हार्ड सेंट्रोइड क्लस्टरिंग विधि। यहाँ, प्रत्येक वस्तु एक समूह की है या उसके बाहर है।
  • नरम या फजी सिस्टम। इस बिंदु पर, प्रत्येक वस्तु पहले से ही एक निश्चित सीमा तक किसी भी क्लस्टर से संबंधित है। इसे सी-मीन्स फ़ज़ी क्लस्टरिंग विधि भी कहा जाता है।

और अधिक सूक्ष्म अंतर भी संभव हैं। उदाहरण के लिए:

  • सख्त विभाजन क्लस्टरिंग। यहांप्रत्येक वस्तु ठीक एक समूह की है।
  • आउटलेर्स के साथ सख्त विभाजन क्लस्टरिंग। इस मामले में, ऑब्जेक्ट भी किसी क्लस्टर से संबंधित नहीं हो सकते हैं और उन्हें अनावश्यक माना जा सकता है।
  • अतिव्यापी क्लस्टरिंग (एकाधिक दृश्यों के साथ वैकल्पिक भी)। यहां, वस्तुएं एक से अधिक शाखाओं से संबंधित हो सकती हैं। आम तौर पर ठोस क्लस्टर शामिल होते हैं।
  • श्रेणीबद्ध क्लस्टरिंग विधियाँ। चाइल्ड ग्रुप से संबंधित ऑब्जेक्ट भी पैरेंट सबसिस्टम से संबंधित हैं।
  • उप-स्थान का गठन। हालांकि अतिव्यापी समूहों के समान, एक विशिष्ट रूप से परिभाषित प्रणाली के भीतर, पारस्परिक समूहों को ओवरलैप नहीं करना चाहिए।

निर्देश

बनाने के लिए क्लस्टरिंग विधि का उपयोग करना
बनाने के लिए क्लस्टरिंग विधि का उपयोग करना

जैसा कि ऊपर कहा गया है, क्लस्टरिंग एल्गोरिदम को उनके क्लस्टर मॉडल के आधार पर वर्गीकृत किया जा सकता है। निम्नलिखित समीक्षा इन निर्देशों के केवल सबसे प्रमुख उदाहरणों को सूचीबद्ध करेगी। चूंकि 100 से अधिक प्रकाशित एल्गोरिदम हो सकते हैं, सभी अपने क्लस्टर के लिए मॉडल प्रदान नहीं करते हैं और इसलिए आसानी से वर्गीकृत नहीं किया जा सकता है।

कोई वस्तुनिष्ठ रूप से सही क्लस्टरिंग एल्गोरिथम नहीं है। लेकिन, जैसा कि ऊपर उल्लेख किया गया है, निर्देश हमेशा पर्यवेक्षक के दृष्टिकोण के क्षेत्र में होता है। किसी विशेष समस्या के लिए सबसे उपयुक्त क्लस्टरिंग एल्गोरिथम को अक्सर प्रयोगात्मक रूप से चुना जाता है, जब तक कि एक मॉडल को दूसरे पर पसंद करने का कोई गणितीय कारण न हो। यह ध्यान दिया जाना चाहिए कि एकल प्रकार के लिए डिज़ाइन किया गया एल्गोरिदम आमतौर पर काम नहीं करता हैएक डेटासेट जिसमें मौलिक रूप से भिन्न विषय होता है। उदाहरण के लिए, k- साधन गैर-उत्तल समूह नहीं ढूंढ सकते।

कनेक्शन आधारित क्लस्टरिंग

क्लस्टरिंग विधि
क्लस्टरिंग विधि

इस संघ को इसके नाम से भी जाना जाता है, पदानुक्रमित मॉडल। यह विशिष्ट विचार पर आधारित है कि वस्तुएं पड़ोसी भागों से अधिक जुड़ी हुई हैं, जो कि बहुत दूर हैं। ये एल्गोरिदम वस्तुओं को जोड़ते हैं, उनकी दूरी के आधार पर अलग-अलग क्लस्टर बनाते हैं। एक समूह को मुख्य रूप से क्लस्टर के विभिन्न हिस्सों को जोड़ने के लिए आवश्यक अधिकतम दूरी द्वारा वर्णित किया जा सकता है। सभी संभावित दूरियों पर, अन्य समूह बनेंगे, जिन्हें डेंड्रोग्राम का उपयोग करके दर्शाया जा सकता है। यह बताता है कि सामान्य नाम "पदानुक्रमित क्लस्टरिंग" कहां से आता है। यही है, ये एल्गोरिदम डेटासेट का एक भी विभाजन प्रदान नहीं करते हैं, बल्कि इसके बजाय प्राधिकरण का एक व्यापक क्रम प्रदान करते हैं। यह उसके लिए धन्यवाद है कि निश्चित दूरी पर एक दूसरे के साथ एक नाली है। डेंड्रोग्राम में, y-अक्ष उस दूरी को दर्शाता है जिस पर क्लस्टर एक साथ आते हैं। और वस्तुओं को एक्स लाइन के साथ व्यवस्थित किया जाता है ताकि समूह मिश्रण न करें।

कनेक्शन-आधारित क्लस्टरिंग विधियों का एक पूरा परिवार है जो दूरियों की गणना करने के तरीके में भिन्न होता है। दूरी के कार्यों की सामान्य पसंद के अलावा, उपयोगकर्ता को कनेक्शन मानदंड पर भी निर्णय लेने की आवश्यकता होती है। चूंकि एक क्लस्टर में कई ऑब्जेक्ट होते हैं, इसलिए इसकी गणना के लिए कई विकल्प होते हैं। एक लोकप्रिय विकल्प को सिंगल-लीवर ग्रुपिंग के रूप में जाना जाता है, यह विधि हैपूर्ण लिंक, जिसमें UPGMA या WPGMA शामिल है (अंकगणितीय माध्य के साथ जोड़े का भारित या भारित पहनावा, जिसे माध्य लिंक क्लस्टरिंग भी कहा जाता है)। इसके अलावा, पदानुक्रमित प्रणाली समूहात्मक हो सकती है (व्यक्तिगत तत्वों से शुरू होकर और उन्हें समूहों में संयोजित करना) या विभाजित करना (एक पूर्ण डेटा सेट के साथ शुरू करना और इसे अनुभागों में तोड़ना)।

वितरित क्लस्टरिंग

बनाने के लिए क्लस्टरिंग विधि
बनाने के लिए क्लस्टरिंग विधि

ये मॉडल विभाजन पर आधारित आंकड़ों से सबसे अधिक निकटता से संबंधित हैं। समूहों को आसानी से उन वस्तुओं के रूप में परिभाषित किया जा सकता है जो सबसे अधिक समान वितरण से संबंधित हैं। इस दृष्टिकोण की एक उपयोगी विशेषता यह है कि यह कृत्रिम डेटासेट बनाने के तरीके के समान है। एक वितरण से यादृच्छिक वस्तुओं का नमूना लेना।

जबकि इन विधियों का सैद्धांतिक आधार उत्कृष्ट है, वे एक प्रमुख समस्या से ग्रस्त हैं, जिसे ओवरफिटिंग के रूप में जाना जाता है, जब तक कि मॉडल की जटिलता पर सीमाएं नहीं लगाई जाती हैं। एक बड़ा जुड़ाव आमतौर पर डेटा को बेहतर तरीके से समझाएगा, जिससे सही तरीका चुनना मुश्किल हो जाएगा।

गाऊसी मिश्रण मॉडल

यह विधि सभी प्रकार की अपेक्षा अधिकतमकरण एल्गोरिदम का उपयोग करती है। यहां, डेटासेट को आमतौर पर गाऊसी वितरणों की एक निश्चित (ओवरराइडिंग से बचने के लिए) संख्या के साथ तैयार किया जाता है, जो बेतरतीब ढंग से शुरू होते हैं और जिनके पैरामीटर डेटासेट को बेहतर ढंग से फिट करने के लिए पुनरावृत्त रूप से अनुकूलित होते हैं। यह प्रणाली एक स्थानीय इष्टतम में परिवर्तित हो जाएगी। इसलिए दे सकते हैं कई रनअलग परिणाम। सबसे सख्त क्लस्टरिंग प्राप्त करने के लिए, सुविधाओं को अक्सर गाऊसी वितरण को सौंपा जाता है, जिसके वे सबसे अधिक संभावना रखते हैं। और नरम समूहों के लिए, यह आवश्यक नहीं है।

वितरण-आधारित क्लस्टरिंग जटिल मॉडल बनाता है जो अंततः विशेषताओं के बीच सहसंबंध और निर्भरता को पकड़ सकता है। हालाँकि, ये एल्गोरिदम उपयोगकर्ता पर एक अतिरिक्त बोझ डालते हैं। कई वास्तविक दुनिया के डेटासेट के लिए, एक संक्षिप्त रूप से परिभाषित गणितीय मॉडल नहीं हो सकता है (उदाहरण के लिए, गॉसियन वितरण एक काफी मजबूत धारणा है)।

घनत्व आधारित क्लस्टरिंग

बनाने के लिए क्लस्टरिंग
बनाने के लिए क्लस्टरिंग

इस उदाहरण में, समूहों को मूल रूप से बाकी डेटासेट की तुलना में उच्च अभेद्यता वाले क्षेत्रों के रूप में परिभाषित किया गया है। इन दुर्लभ भागों में वस्तुओं, जो सभी घटकों को अलग करने के लिए आवश्यक हैं, आमतौर पर शोर और किनारे बिंदु माने जाते हैं।

सबसे लोकप्रिय घनत्व-आधारित क्लस्टरिंग विधि DBSCAN (स्थानिक शोर क्लस्टरिंग एल्गोरिथम) है। कई नई विधियों के विपरीत, इसमें "घनत्व पहुंच योग्यता" नामक एक अच्छी तरह से परिभाषित क्लस्टर घटक है। लिंक-आधारित क्लस्टरिंग के समान, यह निश्चित दूरी की सीमा के भीतर कनेक्शन बिंदुओं पर आधारित है। हालाँकि, यह विधि केवल उन वस्तुओं को एकत्र करती है जो घनत्व मानदंड को पूरा करती हैं। मूल संस्करण में, इस दायरे में अन्य वस्तुओं की न्यूनतम संख्या के रूप में परिभाषित, क्लस्टर में सभी शामिल हैंघनत्व से संबंधित आइटम (जो कई अन्य तरीकों के विपरीत, एक फ्री-फॉर्म समूह बना सकते हैं), और सभी ऑब्जेक्ट जो अनुमत सीमा के भीतर हैं।

डीबीएससीएएन की एक और दिलचस्प संपत्ति यह है कि इसकी जटिलता काफी कम है - इसके लिए डेटाबेस के खिलाफ एक रेखीय संख्या में रेंज प्रश्नों की आवश्यकता होती है। और यह भी असामान्य है कि यह अनिवार्य रूप से एक ही परिणाम प्राप्त करेगा (यह कोर और शोर बिंदुओं के लिए नियतात्मक है, लेकिन सीमा तत्वों के लिए नहीं) प्रत्येक रन में। इसलिए, इसे कई बार चलाने की आवश्यकता नहीं है।

डीबीएससीएएन और ऑप्टिक्स का मुख्य नुकसान यह है कि वे क्लस्टर सीमाओं का पता लगाने के लिए घनत्व में कुछ गिरावट की उम्मीद करते हैं। उदाहरण के लिए, अतिव्यापी गॉसियन वितरण वाले डेटासेट में - कृत्रिम वस्तुओं के लिए एक सामान्य उपयोग का मामला - इन एल्गोरिदम द्वारा उत्पन्न क्लस्टर सीमाएं अक्सर मनमानी दिखाई देती हैं। ऐसा इसलिए होता है क्योंकि समूहों का घनत्व लगातार घट रहा है। और एक गाऊसी मिश्रण डेटासेट में, ये एल्गोरिदम लगभग हमेशा EM क्लस्टरिंग जैसे तरीकों से बेहतर प्रदर्शन करते हैं, जो इस प्रकार के सिस्टम को सटीक रूप से मॉडल करने में सक्षम हैं।

माध्य विस्थापन एक क्लस्टरिंग दृष्टिकोण है जिसमें प्रत्येक वस्तु पूरे कर्नेल के अनुमान के आधार पर पड़ोस में सबसे घने क्षेत्र में जाती है। अंत में, वस्तुएं स्थानीय अभेद्यता मैक्सिमा में परिवर्तित हो जाती हैं। k- साधन क्लस्टरिंग के समान, ये "घनत्व आकर्षित करने वाले" एक डेटासेट के प्रतिनिधि के रूप में काम कर सकते हैं। लेकिन माध्य शिफ्टडीबीएससीएएन के समान मनमाने आकार के समूहों का पता लगा सकता है। महंगी पुनरावृत्ति प्रक्रिया और घनत्व अनुमान के कारण, औसत विस्थापन आमतौर पर डीबीएससीएएन या के-मीन्स से धीमा होता है। इसके अलावा, कर्नेल घनत्व अनुमान के गैर-समान व्यवहार के कारण उच्च-आयामी डेटा के लिए विशिष्ट शिफ्ट एल्गोरिथम की प्रयोज्यता मुश्किल है, जिससे क्लस्टर टेल का अत्यधिक विखंडन होता है।

रेटिंग

मेटासब्जेक्ट के गठन के लिए क्लस्टरिंग विधि
मेटासब्जेक्ट के गठन के लिए क्लस्टरिंग विधि

क्लस्टरिंग परिणामों को सत्यापित करना उतना ही कठिन है जितना कि स्वयं क्लस्टर करना। लोकप्रिय दृष्टिकोणों में "आंतरिक" स्कोरिंग (जहां सिस्टम गुणवत्ता के एक माप तक कम हो जाता है) और निश्चित रूप से, "बाहरी" स्कोरिंग (जहां क्लस्टरिंग की तुलना मौजूदा "जमीनी सच्चाई" वर्गीकरण से की जाती है) शामिल हैं। और मानव विशेषज्ञ के मैनुअल स्कोर और अप्रत्यक्ष स्कोर को इच्छित एप्लिकेशन में क्लस्टरिंग की उपयोगिता की जांच करके पाया जाता है।

आंतरिक ध्वज उपाय इस समस्या से ग्रस्त हैं कि वे उन विशेषताओं का प्रतिनिधित्व करते हैं जिन्हें स्वयं क्लस्टरिंग लक्ष्य माना जा सकता है। उदाहरण के लिए, सिल्हूट गुणांक द्वारा दिए गए डेटा को समूहबद्ध करना संभव है, सिवाय इसके कि ऐसा करने के लिए कोई ज्ञात कुशल एल्गोरिदम नहीं है। मूल्यांकन के लिए इस तरह के एक आंतरिक उपाय का उपयोग करना, अनुकूलन समस्याओं की समानता की तुलना करना बेहतर है।

बाहरी निशान में भी ऐसी ही समस्या है। यदि "जमीनी सच्चाई" के ऐसे लेबल हैं, तो क्लस्टर करने की कोई आवश्यकता नहीं है। और व्यावहारिक अनुप्रयोगों में, आमतौर पर ऐसी कोई अवधारणा नहीं होती है। दूसरी ओर, लेबल डेटा सेट के केवल एक संभावित विभाजन को दर्शाते हैं, जिसका अर्थ यह नहीं हैकि कोई अन्य (शायद इससे भी बेहतर) क्लस्टरिंग नहीं है।

इसलिए इनमें से कोई भी दृष्टिकोण अंततः वास्तविक गुणवत्ता का न्याय नहीं कर सकता है। लेकिन इसके लिए मानवीय मूल्यांकन की आवश्यकता है, जो अत्यधिक व्यक्तिपरक है। फिर भी, ऐसे आँकड़े खराब समूहों की पहचान करने में सूचनात्मक हो सकते हैं। लेकिन किसी व्यक्ति के व्यक्तिपरक आकलन को कम नहीं करना चाहिए।

आंतरिक चिह्न

जब क्लस्टरिंग के परिणाम का मूल्यांकन उस डेटा के आधार पर किया जाता है जो स्वयं क्लस्टर किया गया है, इसे इस शब्द के रूप में संदर्भित किया जाता है। ये विधियां आम तौर पर एक एल्गोरिदम के लिए सबसे अच्छा परिणाम प्रदान करती हैं जो समूहों के बीच उच्च समानता और समूहों के बीच कम समानता वाले समूह बनाती है। क्लस्टर मूल्यांकन में आंतरिक मानदंड का उपयोग करने का एक नुकसान यह है कि उच्च स्कोर आवश्यक रूप से प्रभावी सूचना पुनर्प्राप्ति अनुप्रयोगों की ओर नहीं ले जाते हैं। साथ ही, यह स्कोर समान मॉडल का उपयोग करने वाले एल्गोरिदम के प्रति पक्षपाती है। उदाहरण के लिए, k- साधन क्लस्टरिंग सुविधा दूरी को स्वाभाविक रूप से अनुकूलित करता है, और इसके आधार पर एक आंतरिक मानदंड परिणामी क्लस्टरिंग को अधिक अनुमानित कर सकता है।

इसलिए, ये मूल्यांकन उपाय उन स्थितियों का अंदाजा लगाने के लिए सबसे उपयुक्त हैं जहां एक एल्गोरिथ्म दूसरे से बेहतर प्रदर्शन करता है। लेकिन इसका मतलब यह नहीं है कि प्रत्येक जानकारी दूसरों की तुलना में अधिक विश्वसनीय परिणाम देती है। ऐसे सूचकांक द्वारा मापी गई वैधता अवधि इस दावे पर निर्भर करती है कि संरचना डेटासेट में मौजूद है। कुछ प्रकार के लिए विकसित एल्गोरिथम का कोई मौका नहीं है यदि सेट में मूल रूप से शामिल हैविभिन्न संरचना या यदि मूल्यांकन विभिन्न मानदंडों को मापता है। उदाहरण के लिए, k- साधन क्लस्टरिंग केवल उत्तल क्लस्टर ढूंढ सकता है, और कई स्कोर इंडेक्स एक ही प्रारूप मानते हैं। गैर-उत्तल मॉडल वाले डेटासेट में, k-साधन और विशिष्ट मूल्यांकन मानदंड का उपयोग करना अनुपयुक्त है।

बाहरी मूल्यांकन

इस प्रकार की बॉलिंग के साथ, क्लस्टरिंग परिणामों का मूल्यांकन उस डेटा के आधार पर किया जाता है जिसका उपयोग समूहीकरण के लिए नहीं किया गया था। अर्थात्, ज्ञात वर्ग लेबल और बाहरी परीक्षण। इस तरह के प्रश्नों में पूर्व-वर्गीकृत वस्तुओं का एक समूह होता है और अक्सर विशेषज्ञों (मनुष्यों) द्वारा बनाए जाते हैं। जैसे, संदर्भ किट को मूल्यांकन के लिए स्वर्ण मानक के रूप में देखा जा सकता है। इस प्रकार की स्कोरिंग विधियाँ मापती हैं कि दिए गए संदर्भ वर्गों के लिए क्लस्टरिंग कितनी करीब है। हालाँकि, हाल ही में इस पर चर्चा की गई है कि क्या यह वास्तविक डेटा के लिए पर्याप्त है या केवल वास्तविक जमीनी सच्चाई वाले सिंथेटिक सेट के लिए है। चूंकि कक्षाओं में आंतरिक संरचना हो सकती है, और मौजूदा विशेषताएँ समूहों को अलग करने की अनुमति नहीं दे सकती हैं। इसके अलावा, ज्ञान की खोज के दृष्टिकोण से, ज्ञात तथ्यों को पुन: प्रस्तुत करना आवश्यक रूप से अपेक्षित परिणाम नहीं दे सकता है। एक विशेष विवश क्लस्टरिंग परिदृश्य में जहां मेटा-सूचना (जैसे वर्ग लेबल) पहले से ही समूहीकरण प्रक्रिया में उपयोग की जाती है, मूल्यांकन उद्देश्यों के लिए सभी सूचनाओं को बनाए रखना तुच्छ नहीं है।

अब यह स्पष्ट है कि क्लस्टरिंग विधियों पर क्या लागू नहीं होता है, और इन उद्देश्यों के लिए कौन से मॉडल का उपयोग किया जाता है।

सिफारिश की: