डेटा माइनिंग है अवधारणा, एल्गोरिथम विश्लेषण, उद्देश्य और अनुप्रयोग

2024 लेखक: Angel Austin | [email protected]. अंतिम बार संशोधित: 2023-12-17 05:27

सूचना प्रौद्योगिकी का विकास व्यावहारिक परिणाम लाता है। लेकिन जानकारी खोजने, विश्लेषण करने और उपयोग करने जैसे कार्यों को अभी तक एक प्रभावी उच्च गुणवत्ता वाला उपकरण नहीं मिला है। विश्लेषिकी और मात्रात्मक उपकरण हैं, वे वास्तव में काम करते हैं। लेकिन अभी तक सूचना के उपयोग में गुणात्मक क्रांति नहीं हुई है।

कंप्यूटर प्रौद्योगिकी के आगमन से बहुत पहले, एक व्यक्ति को बड़ी मात्रा में सूचनाओं को संसाधित करने की आवश्यकता थी और अपने सर्वोत्तम अनुभव और उपलब्ध तकनीकी क्षमताओं के साथ इसका मुकाबला किया।

ज्ञान और कौशल का विकास हमेशा वास्तविक जरूरतों को पूरा करता है और वर्तमान कार्यों के अनुरूप होता है। डेटा माइनिंग एक सामूहिक नाम है जिसका उपयोग मानव गतिविधि के विभिन्न क्षेत्रों में निर्णय लेने के लिए आवश्यक डेटा में पहले से अज्ञात, गैर-तुच्छ, व्यावहारिक रूप से उपयोगी और सुलभ ज्ञान की खोज के तरीकों के एक सेट को संदर्भित करने के लिए किया जाता है।

मानव, बुद्धि, प्रोग्रामिंग

एक व्यक्ति हमेशा जानता है कि किसी भी स्थिति में कैसे कार्य करना है।अज्ञानता या अपरिचित स्थिति उसे निर्णय लेने से नहीं रोकती। किसी भी मानवीय निर्णय की निष्पक्षता और तार्किकता पर सवाल उठाया जा सकता है, लेकिन इसे स्वीकार किया जाएगा।

बुद्धिमत्ता पर आधारित है: वंशानुगत "तंत्र", अर्जित, सक्रिय ज्ञान। किसी व्यक्ति के सामने आने वाली समस्याओं को हल करने के लिए ज्ञान का उपयोग किया जाता है।

खुफिया ज्ञान और कौशल का एक अनूठा समूह है: मानव जीवन और कार्य के लिए अवसर और आधार।
बुद्धिमत्ता लगातार विकसित हो रही है, और मानवीय कार्यों का अन्य लोगों पर प्रभाव पड़ता है।

प्रोग्रामिंग डेटा के प्रतिनिधित्व और एल्गोरिदम बनाने की प्रक्रिया को औपचारिक रूप देने का पहला प्रयास है।

आर्टिफिशियल इंटेलिजेंस (एआई) समय और संसाधनों की बर्बादी है, लेकिन एआई के क्षेत्र में पिछली शताब्दी के असफल प्रयासों के परिणाम स्मृति में बने रहे, विभिन्न विशेषज्ञ (बुद्धिमान) प्रणालियों में उपयोग किए गए और रूपांतरित हुए, विशेष रूप से, एल्गोरिदम (नियम) और गणितीय (तार्किक) डेटा विश्लेषण और डेटा माइनिंग में।

सूचना और समाधान की सामान्य खोज

एक साधारण पुस्तकालय ज्ञान का भंडार है, और मुद्रित शब्द और ग्राफिक्स ने अभी तक कंप्यूटर तकनीक को हथेली नहीं दी है। भौतिकी, रसायन विज्ञान, सैद्धांतिक यांत्रिकी, डिजाइन, प्राकृतिक इतिहास, दर्शन, प्राकृतिक विज्ञान, वनस्पति विज्ञान, पाठ्यपुस्तकें, मोनोग्राफ, वैज्ञानिकों के कार्य, सम्मेलन सामग्री, विकास कार्य पर रिपोर्ट आदि पर पुस्तकें हमेशा प्रासंगिक और विश्वसनीय होती हैं।

लाइब्रेरी कई अलग-अलग स्रोत हैं जो अलग-अलग हैंसामग्री, मूल, संरचना, सामग्री, प्रस्तुति शैली, आदि की प्रस्तुति का रूप

पुस्तकालय: किताबें, पत्रिकाएं और अन्य मुद्रित सामग्री

बाहरी रूप से समझने और उपयोग करने के लिए सब कुछ दृश्यमान (पठनीय, सुलभ) है। आप किसी भी समस्या को हल कर सकते हैं, कार्य को सही ढंग से निर्धारित कर सकते हैं, समाधान को सही ठहरा सकते हैं, निबंध या टर्म पेपर लिख सकते हैं, डिप्लोमा के लिए सामग्री का चयन कर सकते हैं, शोध प्रबंध या वैज्ञानिक और विश्लेषणात्मक रिपोर्ट के विषय पर स्रोतों का विश्लेषण कर सकते हैं।

सूचना संबंधी किसी भी समस्या का समाधान हो सकता है। उचित दृढ़ता और कौशल के साथ, एक सटीक और विश्वसनीय परिणाम प्राप्त होगा। इस संदर्भ में, डाटा माइनिंग एक पूरी तरह से अलग दृष्टिकोण है।

परिणाम के अलावा, एक व्यक्ति को लक्ष्य प्राप्त करने की प्रक्रिया में देखी गई हर चीज के लिए "सक्रिय लिंक" प्राप्त होता है। समस्या को हल करने में उन्होंने जिन स्रोतों का इस्तेमाल किया, उन्हें संदर्भित किया जा सकता है और कोई भी स्रोत के अस्तित्व के तथ्य पर विवाद नहीं करेगा। यह प्रामाणिकता की गारंटी नहीं है, लेकिन यह एक निश्चित प्रमाण है जिसके लिए प्रामाणिकता की जिम्मेदारी "सदस्यता समाप्त" है। इस दृष्टिकोण से, डेटा माइनिंग का अर्थ है विश्वसनीयता के बारे में बड़ा संदेह और कोई "सक्रिय" लिंक नहीं।

कई समस्याओं को हल करके व्यक्ति को परिणाम मिलते हैं और अपनी बौद्धिक क्षमता को कई "सक्रिय कड़ियों" तक फैलाते हैं। यदि कोई नया कार्य पहले से मौजूद लिंक को "सक्रिय" करता है, तो व्यक्ति को पता चल जाएगा कि इसे कैसे हल किया जाए: फिर से कुछ भी खोजने की कोई आवश्यकता नहीं है।

"सक्रिय लिंक" एक निश्चित जुड़ाव है: किसी विशेष मामले में कैसे और क्या करना है। मानव मस्तिष्क स्वचालित रूप से वह सब कुछ याद रखता है जो उसे संभावित रूप से दिलचस्प, उपयोगी लगता है।या भविष्य में इसकी आवश्यकता होने की संभावना है। कई मायनों में, यह अवचेतन स्तर पर होता है, लेकिन जैसे ही कोई कार्य उत्पन्न होता है जिसे "सक्रिय लिंक" से जोड़ा जा सकता है, यह तुरंत दिमाग में आ जाता है और जानकारी के लिए अतिरिक्त खोज के बिना समाधान प्राप्त किया जाएगा। डेटा माइनिंग हमेशा खोज एल्गोरिथम की पुनरावृत्ति होती है और यह एल्गोरिथम नहीं बदलता है।

नियमित खोज: "कलात्मक" समस्याएं

गणित पुस्तकालय और उसमें जानकारी खोजना अपेक्षाकृत कमजोर कार्य है। एक अभिन्न को हल करने, एक मैट्रिक्स बनाने, या दो काल्पनिक संख्याओं को जोड़ने का कार्य करने के लिए एक रास्ता या दूसरा खोजना श्रमसाध्य है, लेकिन सरल है। आपको कई पुस्तकों को छाँटने की ज़रूरत है, जिनमें से कई एक विशिष्ट भाषा में लिखी गई हैं, सही पाठ ढूँढ़ें, उसका अध्ययन करें और आवश्यक समाधान प्राप्त करें।

समय के साथ, गणना परिचित हो जाएगी, और संचित अनुभव आपको पुस्तकालय की जानकारी और अन्य गणितीय समस्याओं को नेविगेट करने की अनुमति देगा। यह प्रश्नों और उत्तरों की सीमित सूचना स्थान है। एक विशेषता विशेषता: जानकारी के लिए इस तरह की खोज समान समस्याओं को हल करने के लिए ज्ञान जमा करती है। जानकारी के लिए एक व्यक्ति की खोज अन्य समस्याओं के संभावित समाधान पर उसकी स्मृति में निशान ("सक्रिय लिंक") छोड़ देती है।

कथा में, इस प्रश्न का उत्तर खोजें: "जनवरी 1248 में लोग कैसे रहते थे?" बहुत मुश्किल। इस सवाल का जवाब देना और भी मुश्किल है कि स्टोर अलमारियों पर क्या था और खाद्य व्यापार कैसे व्यवस्थित किया गया था। भले ही किसी लेखक ने अपने उपन्यास में इस बारे में स्पष्ट और प्रत्यक्ष रूप से लिखा हो, यदि इस लेखक का नाम मिल जाए, तो संदेह है किप्राप्त आंकड़ों की विश्वसनीयता बनी रहेगी। विश्वसनीयता किसी भी जानकारी की एक महत्वपूर्ण विशेषता है। स्रोत, लेखक और साक्ष्य जो परिणाम की असत्यता को बाहर करता है, महत्वपूर्ण है।

किसी विशेष स्थिति की वस्तुनिष्ठ परिस्थितियाँ

मनुष्य देखता है, सुनता है, महसूस करता है। कुछ विशेषज्ञ एक अनूठी भावना - अंतर्ज्ञान में धाराप्रवाह हैं। समस्या के बयान के लिए जानकारी की आवश्यकता होती है, समस्या को हल करने की प्रक्रिया अक्सर समस्या के बयान के शोधन के साथ होती है। यह कम परेशानी है जो कंप्यूटर सिस्टम की आंतों में जानकारी ले जाने के साथ आती है।

पुस्तकालय और कार्य सहयोगी निर्णय प्रक्रिया में अप्रत्यक्ष भागीदार हैं। पुस्तक का डिज़ाइन (स्रोत), पाठ में ग्राफिक्स, शीर्षकों में जानकारी को विभाजित करने की विशेषताएं, वाक्यांशों द्वारा फुटनोट, विषय सूचकांक, प्राथमिक स्रोतों की सूची - सब कुछ एक व्यक्ति में संघों को उद्घाटित करता है जो परोक्ष रूप से हल करने की प्रक्रिया को प्रभावित करता है। समस्या।

समस्या के समाधान का समय और स्थान जरूरी है। एक व्यक्ति को इतना व्यवस्थित किया जाता है कि वह किसी समस्या को हल करने की प्रक्रिया में अपने आस-पास की हर चीज पर अनैच्छिक रूप से ध्यान देता है। यह विचलित करने वाला हो सकता है, या यह उत्तेजक हो सकता है। डाटा माइनिंग कभी "समझ" नहीं पाएगा।

वर्चुअल स्पेस में जानकारी

किसी समस्या को हल करने के लिए किसी घटना, घटना, वस्तु, एल्गोरिथम के बारे में विश्वसनीय जानकारी में ही एक व्यक्ति की रुचि हमेशा से रही है। मनुष्य ने हमेशा कल्पना की है कि वह वांछित लक्ष्य को कैसे प्राप्त कर सकता है।

कंप्यूटर और सूचना प्रणाली की उपस्थिति ने एक व्यक्ति के लिए जीवन को आसान बना दिया होगा, लेकिन सब कुछ केवल और अधिक जटिल हो गया है।सूचना कंप्यूटर सिस्टम की आंतों में चली गई और दृष्टि से गायब हो गई। आवश्यक डेटा का चयन करने के लिए, आपको एक सही एल्गोरिथम बनाने या डेटाबेस के लिए एक क्वेरी तैयार करने की आवश्यकता है।

प्रश्न सही होना चाहिए। तभी उत्तर मिल पाएगा। लेकिन प्रमाणिकता को लेकर संशय बना हुआ है। इस अर्थ में, डेटा माइनिंग वास्तव में "खुदाई" है, यह "सूचना निष्कर्षण" है। इस प्रकार इस वाक्यांश का अनुवाद करना फैशनेबल है। रूसी संस्करण डेटा माइनिंग या डेटा माइनिंग तकनीक है।

आधिकारिक विशेषज्ञों के कार्यों में डाटा माइनिंग के कार्यों को इस प्रकार दर्शाया गया है:

वर्गीकरण;
क्लस्टरिंग;
एसोसिएशन;
अनुक्रम;
पूर्वानुमान।

सूचना के मैनुअल प्रसंस्करण में एक व्यक्ति का मार्गदर्शन करने वाले अभ्यास के दृष्टिकोण से, ये सभी पद बहस योग्य हैं। किसी भी मामले में, एक व्यक्ति स्वचालित रूप से जानकारी को संसाधित करता है और डेटा को वर्गीकृत करने, वस्तुओं के विषयगत समूहों (क्लस्टरिंग) को संकलित करने, अस्थायी पैटर्न (अनुक्रम) की खोज करने या परिणाम की भविष्यवाणी करने के बारे में नहीं सोचता है।

मानव मस्तिष्क में इन सभी पदों को सक्रिय ज्ञान द्वारा दर्शाया जाता है, जो अधिक पदों को कवर करते हैं और गतिशील रूप से प्रारंभिक डेटा को संसाधित करने के तर्क का उपयोग करते हैं। एक व्यक्ति का अवचेतन मन एक महत्वपूर्ण भूमिका निभाता है, खासकर तब जब वह ज्ञान के किसी विशेष क्षेत्र का विशेषज्ञ हो।

उदाहरण: कंप्यूटर उपकरण का थोक

कार्य सरल है। वहाँ कई हैंकंप्यूटर उपकरण और बाह्य उपकरणों के दर्जनों आपूर्तिकर्ता। प्रत्येक के पास xls प्रारूप (एक्सेल फ़ाइल) में एक मूल्य सूची है, जिसे आपूर्तिकर्ता की आधिकारिक वेबसाइट से डाउनलोड किया जा सकता है। एक वेब संसाधन बनाना आवश्यक है जो एक्सेल फाइलों को पढ़ता है, उन्हें डेटाबेस टेबल में परिवर्तित करता है और ग्राहकों को न्यूनतम कीमतों पर वांछित उत्पादों का चयन करने की अनुमति देता है।

समस्याएं तुरंत उत्पन्न होती हैं। प्रत्येक आपूर्तिकर्ता xls फ़ाइल की संरचना और सामग्री का अपना संस्करण प्रदान करता है। आप फ़ाइल को आपूर्तिकर्ता की वेबसाइट से डाउनलोड करके, ई-मेल द्वारा ऑर्डर करके, या अपने व्यक्तिगत खाते के माध्यम से डाउनलोड लिंक प्राप्त करके, यानी आधिकारिक तौर पर आपूर्तिकर्ता के साथ पंजीकरण करके प्राप्त कर सकते हैं।

समस्या का समाधान (शुरुआत में) तकनीकी रूप से सरल है। फ़ाइलें लोड हो रही हैं (प्रारंभिक डेटा), प्रत्येक आपूर्तिकर्ता के लिए एक फ़ाइल पहचान एल्गोरिथ्म लिखा जाता है और डेटा को प्रारंभिक डेटा की एक बड़ी तालिका में रखा जाता है। सभी डेटा प्राप्त होने के बाद, ताजा डेटा के निरंतर स्वैपिंग (दैनिक, साप्ताहिक या परिवर्तन पर) की व्यवस्था स्थापित होने के बाद:

वर्गीकरण बदलें;
कीमत में बदलाव;
स्टॉक में मात्रा का स्पष्टीकरण;
वारंटी शर्तों, विशिष्टताओं आदि का समायोजन

यहीं से असली समस्याएं शुरू होती हैं। बात यह है कि आपूर्तिकर्ता लिख सकता है:

नोटबुक एसर;
नोटबुक आसुस;
डेल लैपटॉप।

हम एक ही उत्पाद के बारे में बात कर रहे हैं, लेकिन विभिन्न निर्माताओं से। नोटबुक=लैपटॉप का मिलान कैसे करें या उत्पाद लाइन से एसर, आसुस और डेल को कैसे हटाएं?

के लिएमानव कोई समस्या नहीं है, लेकिन एल्गोरिदम "समझ" कैसे जाएगा कि एसर, एसस, डेल, सैमसंग, एलजी, एचपी, सोनी ट्रेडमार्क या आपूर्तिकर्ता हैं? "प्रिंटर" और प्रिंटर, "स्कैनर" और "एमएफपी", "कॉपियर" और "एमएफपी", "हेडफ़ोन" को "हेडसेट", "एक्सेसरीज़" के साथ "एक्सेसरीज़" से कैसे मिलान करें?

स्रोत डेटा (स्रोत फ़ाइलें) के आधार पर एक श्रेणी ट्री बनाना पहले से ही एक समस्या है जब आपको सब कुछ स्वचालित पर सेट करने की आवश्यकता होती है।

डेटा नमूनाकरण: "ताज़ा डाला" की खुदाई

कंप्यूटर उपकरण आपूर्तिकर्ताओं का डेटाबेस बनाने का कार्य हल हो गया है। श्रेणियों का एक वृक्ष बनाया गया है, सभी आपूर्तिकर्ताओं के प्रस्तावों के साथ एक साझा तालिका काम कर रही है।

इस उदाहरण के संदर्भ में विशिष्ट डेटा माइनिंग कार्य:

सबसे कम कीमत पर उत्पाद ढूंढें;
सबसे कम शिपिंग लागत और कीमत वाले आइटम का चयन करें;
उत्पाद विश्लेषण: मापदंड के अनुसार विशेषताएँ और कीमतें।

कई दर्जन आपूर्तिकर्ताओं के डेटा का उपयोग करने वाले प्रबंधक के वास्तविक कार्य में, इन कार्यों के कई रूप होंगे, और इससे भी अधिक वास्तविक स्थितियाँ होंगी।

उदाहरण के लिए, एक आपूर्तिकर्ता "ए" है जो ASUS VivoBook S15 बेचता है: पैसे की वास्तविक प्राप्ति के 5 दिन बाद प्रीपेमेंट, डिलीवरी। एक ही मॉडल के एक ही उत्पाद का एक आपूर्तिकर्ता "बी" है: प्राप्ति पर भुगतान, एक दिन के भीतर अनुबंध के समापन के बाद वितरण, कीमत डेढ़ गुना अधिक है।

डेटा माइनिंग शुरू - "खुदाई"। आलंकारिक अभिव्यक्तियाँ: "खुदाई" या "डेटा माइनिंग" पर्यायवाची हैं। यह इस बारे में है कि निर्णय लेने के लिए एक कारण कैसे प्राप्त किया जाए।

आपूर्तिकर्ताओं "ए" और "बी" का प्रसव का इतिहास रहा है। श्रेणीदूसरे मामले में रसीद पर भुगतान के खिलाफ पहले मामले में पूर्व भुगतान, यह ध्यान में रखते हुए कि दूसरे मामले में वितरण विफलता 65% अधिक है। क्लाइंट से दंड का जोखिम अधिक/कम होता है। कैसे और क्या निर्धारित करना है और क्या निर्णय लेना है?

दूसरी ओर: डेटाबेस एक प्रोग्रामर और एक मैनेजर द्वारा बनाया गया था। यदि प्रोग्रामर और प्रबंधक बदल गए हैं, तो डेटाबेस की वर्तमान स्थिति का निर्धारण कैसे करें और इसका सही तरीके से उपयोग करना सीखें? आपको डेटा माइनिंग भी करनी होगी। डेटा माइनिंग विभिन्न प्रकार की गणितीय और तार्किक विधियाँ प्रदान करता है जो इस बात की परवाह नहीं करती हैं कि किस प्रकार के डेटा पर शोध किया जा रहा है। यह कुछ मामलों में सही समाधान देता है, लेकिन बिल्कुल नहीं।

आभासी में जाना और अर्थ खोजना

डेटा माइनिंग के तरीके डेटाबेस में जानकारी लिखते ही सार्थक हो जाते हैं और "दृश्य के क्षेत्र" से गायब हो जाते हैं। कंप्यूटर उपकरण में व्यापार एक दिलचस्प काम है, लेकिन यह सिर्फ एक व्यवसाय है। वह कंपनी में कितनी अच्छी तरह संगठित है यह उसकी सफलता पर निर्भर करता है।

किसी विशेष शहर में ग्रह और मौसम पर जलवायु परिवर्तन सभी के लिए रुचिकर हैं, न कि केवल पेशेवर जलवायु विशेषज्ञ। हजारों सेंसर कृत्रिम पृथ्वी उपग्रहों से हवा, नमी, दबाव, डेटा की रीडिंग लेते हैं और वर्षों और सदियों से डेटा का इतिहास है।

मौसम डेटा केवल यह तय करने के बारे में नहीं है कि छतरी को काम पर लाया जाए या नहीं। डेटा माइनिंग प्रौद्योगिकियां एक एयरलाइनर की सुरक्षित उड़ान, एक राजमार्ग के स्थिर संचालन और समुद्र के द्वारा पेट्रोलियम उत्पादों की विश्वसनीय आपूर्ति हैं।

"रॉ" डेटा सूचना को भेजा जाता हैप्रणाली। डेटा माइनिंग के कार्य उन्हें तालिकाओं की एक व्यवस्थित प्रणाली में बदलना, लिंक स्थापित करना, सजातीय डेटा के समूहों को हाइलाइट करना और पैटर्न का पता लगाना है।

गणितीय और तार्किक विधियों ने मात्रात्मक विश्लेषण के दिनों से ही OLAP (ऑन-लाइन विश्लेषणात्मक प्रसंस्करण) ने अपनी व्यावहारिकता दिखाई है। यहां, प्रौद्योगिकी आपको अर्थ खोजने की अनुमति देती है, और इसे खोना नहीं, जैसा कि कंप्यूटर उपकरण बेचने के उदाहरण में है।

इसके अलावा, वैश्विक कार्यों में:

अंतरराष्ट्रीय व्यापार;
हवाई परिवहन प्रबंधन;
पृथ्वी की आंतों या सामाजिक समस्याओं का अध्ययन (राज्य स्तर पर);
जीवों पर दवाओं के प्रभाव का अध्ययन;
एक औद्योगिक उद्यम के निर्माण आदि के परिणामों की भविष्यवाणी करना।

डेटा माइन प्रौद्योगिकियां और "अर्थहीन" डेटा को वास्तविक डेटा में बदलना जो आपको वस्तुनिष्ठ निर्णय लेने की अनुमति देता है, यही एकमात्र विकल्प है।

मानवीय संभावनाएं वहीं समाप्त हो जाती हैं जहां बड़ी मात्रा में कच्ची जानकारी होती है। डेटा माइनिंग सिस्टम अपनी उपयोगिता खो देते हैं जहाँ जानकारी को देखने, समझने और महसूस करने की आवश्यकता होती है।

कार्यों और निष्पक्षता का उचित वितरण

मनुष्य और कंप्यूटर एक दूसरे के पूरक होने चाहिए - यह एक स्वयंसिद्ध है। एक शोध प्रबंध लिखना एक व्यक्ति की प्राथमिकता है, और एक सूचना प्रणाली एक सहायता है। यहाँ, डेटा माइनिंग तकनीक के पास जो डेटा है वह अनुमान, नियम, एल्गोरिदम है।

साप्ताहिक मौसम पूर्वानुमान तैयार करना सूचना प्रणाली की प्राथमिकता है।मनुष्य डेटा का प्रबंधन करता है, लेकिन सिस्टम की गणना के परिणामों पर अपने निर्णयों को आधार बनाता है। यह डेटा माइनिंग विधियों, विशेषज्ञ डेटा वर्गीकरण, एल्गोरिदम के अनुप्रयोग का मैन्युअल नियंत्रण, पिछले डेटा की स्वचालित तुलना, गणितीय पूर्वानुमान और सूचना प्रणाली के अनुप्रयोग में शामिल वास्तविक लोगों के बहुत सारे ज्ञान और कौशल को जोड़ती है।

संभाव्यता सिद्धांत और गणितीय आँकड़े ज्ञान के सबसे "पसंदीदा" और समझने योग्य क्षेत्र नहीं हैं। कई विशेषज्ञ उनसे बहुत दूर हैं, लेकिन इन क्षेत्रों में विकसित तरीके लगभग 100% सही परिणाम देते हैं। डेटा माइनिंग के विचारों, विधियों और एल्गोरिदम के आधार पर सिस्टम लागू करके, समाधान निष्पक्ष और विश्वसनीय रूप से प्राप्त किए जा सकते हैं। अन्यथा, समाधान प्राप्त करना असंभव है।

फिरौन और पिछली सदियों के रहस्य

इतिहास समय-समय पर फिर से लिखा गया:

राज्य - अपने रणनीतिक हितों के लिए;
आधिकारिक वैज्ञानिक - अपनी व्यक्तिपरक मान्यताओं के लिए।

यह कहना मुश्किल है कि क्या सच है और क्या झूठ। डेटा माइनिंग का उपयोग हमें इस समस्या को हल करने की अनुमति देता है। उदाहरण के लिए, पिरामिड बनाने की तकनीक का वर्णन इतिहासकारों द्वारा किया गया था और वैज्ञानिकों द्वारा विभिन्न शताब्दियों में इसका अध्ययन किया गया था। इंटरनेट पर सभी सामग्री नहीं मिली, यहां सब कुछ अद्वितीय नहीं है, और कई डेटा में नहीं हो सकता है:

समय में वर्णित बिंदु;
विवरण लिखने का समय;
तिथियां जिन पर विवरण आधारित है;
लेखक, राय (लिंक) को ध्यान में रखा गया;
निष्पक्षता की पुष्टि।

बीपुस्तकालयों, मंदिरों और "अप्रत्याशित स्थानों" में आप विभिन्न शताब्दियों की पांडुलिपियां और अतीत के भौतिक साक्ष्य पा सकते हैं।

दिलचस्प लक्ष्य: सब कुछ एक साथ रखना और "सच्चाई" का पता लगाना। समस्या की विशेषता: फिरौन के जीवनकाल के दौरान, वर्तमान शताब्दी तक, एक इतिहासकार द्वारा पहले विवरण से जानकारी प्राप्त की जा सकती है, जिसमें इस समस्या को कई वैज्ञानिकों द्वारा आधुनिक तरीकों से हल किया जाता है।

डेटा माइनिंग का उपयोग करने का औचित्य: शारीरिक श्रम संभव नहीं है। बहुत अधिक मात्रा:

सूचना के स्रोत;
प्रतिनिधित्व भाषाएं;
शोधकर्ता एक ही चीज़ का अलग-अलग तरीके से वर्णन करते हैं;
तिथियां, घटनाएं और शर्तें;
शब्द सहसंबंध समस्याएं;
समय के साथ डेटा समूहों द्वारा आंकड़ों का विश्लेषण भिन्न हो सकता है, आदि।

पिछली शताब्दी के अंत में, जब कृत्रिम बुद्धि के विचार का एक और उपद्रव न केवल आम आदमी के लिए, बल्कि एक परिष्कृत विशेषज्ञ के लिए भी स्पष्ट हो गया, यह विचार प्रकट हुआ: "व्यक्तित्व को फिर से बनाने के लिए।"

उदाहरण के लिए, पुश्किन, गोगोल, चेखव के कार्यों के अनुसार, नियमों की एक निश्चित प्रणाली, व्यवहार के तर्क का निर्माण होता है और एक सूचना प्रणाली बनाई जाती है जो एक व्यक्ति के रूप में कुछ सवालों के जवाब दे सकती है: पुश्किन, गोगोल या चेखव। सैद्धांतिक रूप से, ऐसा कार्य दिलचस्प है, लेकिन व्यवहार में इसे लागू करना बेहद कठिन है।

हालांकि, इस तरह के कार्य का विचार एक बहुत ही व्यावहारिक विचार सुझाता है: "एक बुद्धिमान जानकारी खोज कैसे बनाएं।" इंटरनेट बहुत सारे विकासशील संसाधन हैं, एक विशाल डेटाबेस है और यह मानव के साथ संयोजन में डेटा माइनिंग को लागू करने का एक शानदार अवसर हैसंयुक्त विकास के प्रारूप में तर्क।

एक मशीन और एक आदमी की जोड़ी एक उत्कृष्ट कार्य है और "सूचना पुरातत्व" के क्षेत्र में एक निस्संदेह सफलता है, डेटा और परिणामों में उच्च गुणवत्ता वाले उत्खनन जो कुछ संदेह में डाल देगा, लेकिन बिना किसी संदेह के आपको अनुमति देगा नया ज्ञान प्राप्त करने के लिए और समाज में मांग में होगा।