कई दशक पहले, वैज्ञानिक केवल भाषाई अनुसंधान को स्वचालित करने का सपना देख सकते थे। काम हाथ से किया गया था, इसमें बड़ी संख्या में छात्र शामिल थे, "अनावश्यकता" त्रुटि की एक महत्वपूर्ण संभावना थी, और सबसे महत्वपूर्ण बात यह है कि इसमें बहुत समय लगता है।
कंप्यूटर प्रौद्योगिकी के विकास के साथ, अनुसंधान बहुत तेजी से करना संभव हो गया है, और आज भाषा के अध्ययन में आशाजनक क्षेत्रों में से एक कॉर्पस भाषाविज्ञान है। इसकी मुख्य विशेषता बड़ी मात्रा में पाठ्य जानकारी का उपयोग है, जो एक एकल डेटाबेस में समेकित है, एक विशेष तरीके से चिह्नित है और एक कॉर्पस कहलाती है।
आज, विभिन्न उद्देश्यों के लिए विभिन्न भाषा सामग्री के आधार पर कई निगम बनाए गए हैं, जो लाखों से लेकर दसियों अरबों शाब्दिक इकाइयों को कवर करते हैं। इस दिशा को आशाजनक माना जाता है और यह अनुप्रयुक्त और अनुसंधान लक्ष्यों को प्राप्त करने में महत्वपूर्ण प्रगति को प्रदर्शित करता है। पेशेवर, एक तरह से या किसी अन्य के साथ व्यवहारप्राकृतिक भाषा, यह अनुशंसा की जाती है कि आप कम से कम एक बुनियादी स्तर पर टेक्स्ट कॉर्पोरा से परिचित हों।
कॉर्पस भाषाविज्ञान का इतिहास
इस दिशा का गठन पिछली सदी के शुरुआती 60 के दशक में संयुक्त राज्य अमेरिका में ब्राउन कॉर्प्स के निर्माण से जुड़ा है। ग्रंथों के संग्रह में केवल 1 मिलियन शब्द रूप शामिल थे, और आज इस तरह की मात्रा का एक संग्रह पूरी तरह से अप्रतिस्पर्धी होगा। यह काफी हद तक कंप्यूटर प्रौद्योगिकी के विकास की गति के साथ-साथ नए शोध संसाधनों की बढ़ती मांग के कारण है।
90 के दशक में, कॉर्पस भाषाविज्ञान एक पूर्ण और स्वतंत्र अनुशासन में गठित किया गया था, कई दर्जन भाषाओं के लिए ग्रंथों का संग्रह संकलित और चिह्नित किया गया था। इस अवधि के दौरान, उदाहरण के लिए, ब्रिटिश नेशनल कॉर्पस को 100 मिलियन शब्दों के उपयोग के लिए बनाया गया था।
जैसे-जैसे भाषाविज्ञान की यह दिशा विकसित होती है, ग्रंथों की मात्रा बड़ी होती जाती है (और अरबों शब्दावली इकाइयों तक पहुँचती है), और मार्कअप अधिक से अधिक विविध हो जाता है। आज, इंटरनेट स्पेस में, आप लिखित और मौखिक भाषण, बहुभाषी और शैक्षिक, कथा या अकादमिक साहित्य पर केंद्रित, साथ ही साथ कई अन्य किस्मों का संग्रह पा सकते हैं।
क्या मामले हैं
कॉर्पस भाषाविज्ञान में कॉर्पस प्रकारों को कई तरीकों से दर्शाया जा सकता है। यह सहज रूप से स्पष्ट है कि वर्गीकरण का आधार ग्रंथों की भाषा (रूसी, जर्मन), एक्सेस मोड (ओपन सोर्स, क्लोज्ड सोर्स, कमर्शियल), स्रोत सामग्री की शैली (फिक्शन) हो सकता है।साहित्य, वृत्तचित्र, अकादमिक, पत्रकारिता)।
एक दिलचस्प तरीके से, मौखिक भाषण का प्रतिनिधित्व करने वाली सामग्री का निर्माण किया जाता है। चूंकि इस तरह के भाषण की जानबूझकर रिकॉर्डिंग उत्तरदाताओं के लिए कृत्रिम परिस्थितियों का निर्माण करेगी, और परिणामी सामग्री को "सहज" नहीं कहा जा सकता है, आधुनिक कॉर्पस भाषाविज्ञान दूसरे तरीके से चला गया। स्वयंसेवक एक माइक्रोफोन से लैस होता है, और दिन के दौरान सभी बातचीत जिसमें वह भाग लेता है रिकॉर्ड किया जाता है। बेशक, आसपास के लोग यह नहीं जान सकते हैं कि रोजमर्रा की बातचीत के दौरान वे विज्ञान के विकास में योगदान दे रहे हैं।
बाद में, प्राप्त ऑडियो रिकॉर्डिंग को डेटा बैंक में संग्रहीत किया जाता है और एक प्रतिलेख की तरह मुद्रित पाठ के साथ होता है। इस तरह, रोज़ाना बोले जाने वाले भाषण का एक संग्रह बनाने के लिए आवश्यक मार्कअप संभव हो जाता है।
आवेदन
जहाँ भाषा का प्रयोग संभव है, वहाँ पाठ कोष का प्रयोग भी संभव है। भाषाविज्ञान में कॉर्पस विधियों का उपयोग करने का उद्देश्य हो सकता है:
- मतदाताओं और ग्राहकों से सकारात्मक और नकारात्मक प्रतिक्रिया को ट्रैक करने के लिए राजनीति और व्यवसाय में व्यापक रूप से उपयोग किए जाने वाले भावना कार्यक्रम बनाना।
- सूचना प्रणाली को शब्दकोशों और अनुवादकों से उनके प्रदर्शन में सुधार के लिए जोड़ना।
- विभिन्न शोध कार्य जो भाषा की संरचना, उसके विकास के इतिहास और निकट भविष्य में इसके परिवर्तन की भविष्यवाणियों को समझने में योगदान करते हैं।
- रूपात्मक पर आधारित सूचना निष्कर्षण प्रणाली का विकास,वाक्यात्मक, शब्दार्थ और अन्य विशेषताएं।
- विभिन्न भाषाई प्रणालियों के काम का अनुकूलन, आदि।
गोले का उपयोग करना
संसाधन इंटरफ़ेस एक विशिष्ट खोज इंजन के समान है और उपयोगकर्ता को इन्फोबेस खोजने के लिए कुछ शब्द या शब्दों के संयोजन को दर्ज करने के लिए प्रेरित करता है। सटीक अनुरोध फ़ॉर्म के अलावा, आप विस्तारित संस्करण का उपयोग कर सकते हैं, जो आपको लगभग किसी भी भाषाई मानदंड द्वारा पाठ्य जानकारी खोजने की अनुमति देता है।
खोज का आधार हो सकता है:
- भाषण के कुछ हिस्सों के एक निश्चित समूह से संबंधित;
- व्याकरणिक विशेषताएं;
- अर्थशास्त्र;
- शैलीगत और भावनात्मक रंग।
इसके अलावा, आप शब्दों के अनुक्रम के लिए खोज मानदंड को जोड़ सकते हैं: उदाहरण के लिए, वर्तमान काल में एक क्रिया की सभी घटनाओं को खोजें, पहले व्यक्ति, एकवचन के बाद "इन" पूर्वसर्ग और अभियोगात्मक मामले में एक संज्ञा. ऐसे सरल कार्य को हल करने में उपयोगकर्ता को कुछ सेकंड लगते हैं और दिए गए क्षेत्रों में केवल कुछ माउस क्लिक की आवश्यकता होती है।
निर्माण प्रक्रिया
किसी विशिष्ट लक्ष्य को प्राप्त करते समय आवश्यकताओं के आधार पर, खोज सभी उप-कॉर्पस में और एक में, विशेष रूप से चयनित, दोनों में की जा सकती है:
- सबसे पहले, यह निर्धारित किया जाता है कि कौन से ग्रंथ कॉर्पस का आधार बनेंगे। व्यावहारिक उद्देश्यों के लिए, पत्रकारिता, समाचार पत्र सामग्री, इंटरनेट टिप्पणियों का अक्सर उपयोग किया जाता है। अनुसंधान परियोजनाओं में, सबसे अधिकविभिन्न प्रकार के निगम, लेकिन ग्रंथों को कुछ सामान्य आधार पर चुना जाना चाहिए।
- ग्रंथों का परिणामी सेट पूर्वसंसाधित है, त्रुटियों को ठीक किया जाता है, यदि कोई हो, तो पाठ का एक ग्रंथ सूची और अतिरिक्त भाषाई विवरण तैयार किया जाता है।
- सभी गैर-पाठ्य सूचनाओं को फ़िल्टर कर दिया जाता है: ग्राफिक्स, चित्र, टेबल हटा दिए जाते हैं।
- टोकन, आमतौर पर शब्द, आगे की प्रक्रिया के लिए आवंटित किए जाते हैं।
- आखिरकार, तत्वों के परिणामी सेट के रूपात्मक, वाक्य-विन्यास और अन्य मार्कअप किया जाता है।
सभी किए गए कार्यों का परिणाम एक वाक्यात्मक संरचना है जिसके ऊपर वितरित तत्वों का एक सेट होता है, जिनमें से प्रत्येक के लिए भाषण का एक हिस्सा, व्याकरणिक और, कुछ मामलों में, शब्दार्थ विशेषताओं को परिभाषित किया जाता है।
मामले बनाने में कठिनाइयाँ
यह समझना महत्वपूर्ण है कि एक कोष प्राप्त करने के लिए, बहुत सारे शब्दों या वाक्यों को एक साथ रखना पर्याप्त नहीं है। एक ओर, ग्रंथों का संग्रह संतुलित होना चाहिए, अर्थात विभिन्न प्रकार के ग्रंथों को निश्चित अनुपात में प्रस्तुत करना चाहिए। दूसरी ओर, मामले की सामग्री को एक विशेष तरीके से चिह्नित किया जाना चाहिए।
पहला मुद्दा समझौते द्वारा हल किया जाता है: उदाहरण के लिए, संग्रह में 60% फिक्शन ग्रंथ, 20% वृत्तचित्र शामिल हैं, मौखिक भाषण, विधायी कृत्यों, वैज्ञानिक पत्रों, आदि की लिखित प्रस्तुति के लिए एक निश्चित अनुपात दिया जाता है।. आज संतुलित कोष के लिए आदर्श नुस्खा मौजूद नहीं है।
सामग्री मार्कअप के संबंध में दूसरा प्रश्न हल करना अधिक कठिन है। ग्रंथों के स्वचालित मार्कअप के लिए उपयोग किए जाने वाले विशेष कार्यक्रम और एल्गोरिदम हैं, लेकिन वे 100% परिणाम नहीं देते हैं, विफलताओं का कारण बन सकते हैं और मैन्युअल शोधन की आवश्यकता होती है। इस समस्या को हल करने के अवसरों और समस्याओं को कॉर्पस भाषाविज्ञान पर वी.पी. ज़खारोव के काम में विस्तार से वर्णित किया गया है।
पाठ मार्कअप कई स्तरों पर किया जाता है, जिसे हम नीचे सूचीबद्ध करेंगे।
रूपात्मक मार्कअप
स्कूल की बेंच से, हमें याद है कि रूसी भाषा में भाषण के विभिन्न भाग होते हैं, और उनमें से प्रत्येक की अपनी विशेषताएं होती हैं। उदाहरण के लिए, एक क्रिया में मनोदशा और काल की श्रेणियां होती हैं जो संज्ञा में नहीं होती हैं। एक देशी वक्ता संज्ञाओं को अस्वीकार करता है और बिना किसी हिचकिचाहट के क्रियाओं को जोड़ता है, लेकिन शारीरिक श्रम 100 मिलियन शब्द उपयोगों के संग्रह को चिह्नित करने के लिए उपयुक्त नहीं है। कंप्यूटर द्वारा सभी आवश्यक कार्य किए जा सकते हैं, हालांकि, इसके लिए इसे सिखाने की आवश्यकता होती है।
मॉर्फोलॉजिकल मार्कअप कंप्यूटर के लिए प्रत्येक शब्द को भाषण के कुछ भाग के रूप में "समझने" के लिए आवश्यक है जिसमें कुछ व्याकरणिक विशेषताएं हैं। चूंकि रूसी (किसी भी अन्य भाषा की तरह) भाषा में कई नियमित नियम कार्य करते हैं, मशीन में कई एल्गोरिदम डालकर रूपात्मक विश्लेषण के लिए एक स्वचालित प्रक्रिया बनाना संभव है। हालांकि, नियम के अपवाद हैं, साथ ही विभिन्न जटिल कारक भी हैं। नतीजतन, शुद्ध कंप्यूटर विश्लेषण आज आदर्श से बहुत दूर है, और 4% त्रुटियां भी 100 मिलियन इकाइयों के एक कोष में 4 मिलियन शब्दों का मान देती हैं, जिसके लिए मैन्युअल शोधन की आवश्यकता होती है।
इस समस्या का विस्तार से वर्णन वी.पी. ज़खारोव की पुस्तक "कॉर्पस लिंग्विस्टिक्स" द्वारा किया गया है।
सिंटैक्टिक मार्कअप
सिंटैक्टिक विश्लेषण या पार्सिंग एक ऐसी प्रक्रिया है जो वाक्य में शब्दों के संबंध को निर्धारित करती है। एल्गोरिदम के एक सेट की मदद से, पाठ में विषय, विधेय, परिवर्धन और भाषण के विभिन्न मोड़ों को निर्धारित करना संभव हो जाता है। यह पता लगाकर कि अनुक्रम में कौन से शब्द मुख्य हैं और कौन से आश्रित हैं, हम प्रभावी ढंग से टेक्स्ट से जानकारी निकाल सकते हैं और मशीन को केवल वही जानकारी वापस करने के लिए प्रशिक्षित कर सकते हैं जिसमें हम एक खोज अनुरोध के जवाब में रुचि रखते हैं।
वैसे, आधुनिक खोज इंजन प्रासंगिक प्रश्नों के जवाब में लंबे टेक्स्ट के बजाय विशिष्ट संख्या देने के लिए इसका उपयोग करते हैं जैसे: "एक सेब में कितनी कैलोरी होती है" या "मास्को से सेंट पीटर्सबर्ग की दूरी"। हालांकि, वर्णित प्रक्रिया की मूल बातें भी समझने के लिए, आपको "कॉर्पस भाषाविज्ञान का परिचय" या किसी अन्य मूल पाठ्यपुस्तक से खुद को परिचित करना होगा।
सिमेंटिक मार्कअप
किसी शब्द का शब्दार्थ, सरल शब्दों में, उसका अर्थ है। सिमेंटिक विश्लेषण में एक व्यापक रूप से लागू दृष्टिकोण एक शब्द के लिए टैग का एट्रिब्यूशन है, जो सिमेंटिक श्रेणियों और उपश्रेणियों के एक सेट से संबंधित है। ऐसी जानकारी टेक्स्ट सेंटीमेंट विश्लेषण एल्गोरिदम को अनुकूलित करने, स्वचालित संदर्भ देने और कॉर्पस भाषाविज्ञान विधियों का उपयोग करके अन्य कार्यों को करने के लिए मूल्यवान है।
पेड़ की कई "जड़ें" हैं, जो अमूर्त शब्द हैं जिनमेंबहुत व्यापक शब्दार्थ। इस पेड़ की शाखाओं के रूप में, नोड्स बनते हैं जिनमें अधिक से अधिक विशिष्ट शाब्दिक तत्व होते हैं। उदाहरण के लिए, "प्राणी" शब्द को "मानव" और "जानवर" जैसी अवधारणाओं से जोड़ा जा सकता है। पहला शब्द विभिन्न व्यवसायों, नातेदारी की शर्तों, राष्ट्रीयता, और दूसरा - वर्गों और जानवरों के प्रकारों में शाखा करना जारी रखेगा।
सूचना पुनर्प्राप्ति प्रणाली का उपयोग
कॉर्पस भाषाविज्ञान के उपयोग के क्षेत्र गतिविधि के विभिन्न क्षेत्रों को कवर करते हैं। कॉर्पोरा का उपयोग शब्दकोशों को संकलित करने और सुधारने, स्वचालित अनुवाद प्रणाली बनाने, सारांशित करने, तथ्यों को निकालने, भावनाओं को निर्धारित करने और अन्य पाठ प्रसंस्करण के लिए किया जाता है।
इसके अलावा, ऐसे संसाधनों का सक्रिय रूप से दुनिया की भाषाओं के अध्ययन और समग्र रूप से भाषा के कामकाज के तंत्र में उपयोग किया जाता है। पूर्व-तैयार जानकारी की बड़ी मात्रा तक पहुंच भाषाओं के विकास में प्रवृत्तियों के तेजी से और व्यापक अध्ययन में योगदान देती है, नवशास्त्रों का निर्माण और स्थिर भाषण मोड़, शाब्दिक इकाइयों के अर्थ में परिवर्तन आदि।
क्योंकि इतनी बड़ी मात्रा में डेटा के साथ काम करने के लिए स्वचालन की आवश्यकता होती है, आज कंप्यूटर और कॉर्पस भाषाविज्ञान के बीच घनिष्ठ संपर्क है।
रूसी भाषा का राष्ट्रीय कोष
इस कोष (संक्षिप्त रूप में NKRC) में कई उप-कॉर्पस शामिल हैं जो विभिन्न प्रकार के कार्यों को हल करने के लिए संसाधन का उपयोग करने की अनुमति देते हैं।
एनसीआरए डेटाबेस में सामग्री को विभाजित किया गया है:
- 90 और 2000 के दशक के मीडिया में प्रकाशनों परवर्ष, घरेलू और विदेशी दोनों;
- मौखिक भाषण की रिकॉर्डिंग;
- उच्चारण रूप से चिह्नित ग्रंथ (अर्थात उच्चारण चिह्नों के साथ);
- बोली बोली;
- काव्य रचनाएं;
- वाक्यविन्यास मार्कअप वाली सामग्री, आदि
सूचना प्रणाली में रूसी से अंग्रेजी, जर्मन, फ्रेंच और कई अन्य भाषाओं (और इसके विपरीत) में कार्यों के समानांतर अनुवाद के साथ उप-संग्रह भी शामिल हैं।
इसके अलावा, डेटाबेस में ऐतिहासिक ग्रंथों का एक खंड है जो इसके विकास के विभिन्न अवधियों में रूसी में लिखित भाषण का प्रतिनिधित्व करता है। एक प्रशिक्षण कोष भी है जो रूसी भाषा में महारत हासिल करने में विदेशी नागरिकों के लिए उपयोगी हो सकता है।
रूसी भाषा के राष्ट्रीय कोष में 400 मिलियन शाब्दिक इकाइयाँ शामिल हैं और कई मायनों में यूरोपीय भाषाओं के निगम के एक महत्वपूर्ण हिस्से से आगे है।
संभावना
इस क्षेत्र को होनहार के रूप में मान्यता देने के पक्ष में एक तथ्य रूसी विश्वविद्यालयों के साथ-साथ विदेशी विश्वविद्यालयों में कॉर्पस भाषाविज्ञान प्रयोगशालाओं की उपस्थिति है। सूचना पुनर्प्राप्ति संसाधनों के ढांचे के भीतर उपयोग और अनुसंधान के साथ, उच्च प्रौद्योगिकियों, प्रश्न-उत्तर प्रणालियों के क्षेत्र में कुछ क्षेत्रों का विकास जुड़ा हुआ है, लेकिन इस पर ऊपर चर्चा की गई थी।
कॉर्पस भाषाविज्ञान के आगे के विकास की भविष्यवाणी तकनीकी से सभी स्तरों पर की जाती है, नए एल्गोरिदम की शुरूआत के संदर्भ में जो सूचनाओं की खोज और प्रसंस्करण की प्रक्रियाओं को अनुकूलित करते हैं, कंप्यूटर की क्षमताओं का विस्तार करते हैं, परिचालन में वृद्धि करते हैंस्मृति, और घरेलू लोगों के साथ समाप्त होता है, क्योंकि उपयोगकर्ता रोज़मर्रा के जीवन और काम पर इस प्रकार के संसाधन का उपयोग करने के अधिक से अधिक तरीके ढूंढते हैं।
निष्कर्ष में
पिछली शताब्दी के मध्य में, 2017 एक दूर के भविष्य की तरह लग रहा था, जिसमें अंतरिक्ष यान ब्रह्मांड के विस्तार को सर्फ करता है और रोबोट लोगों के लिए सभी काम करते हैं। हकीकत में, हालांकि, विज्ञान "रिक्त स्थानों" से भरा हुआ है और सदियों से मानव जाति को परेशान करने वाले सवालों के जवाब देने के लिए बेताब प्रयास कर रहा है। भाषा की कार्यप्रणाली के प्रश्न यहां पर गर्व करते हैं, और कॉर्पस और कम्प्यूटेशनल भाषाविज्ञान हमें उनका उत्तर देने में मदद कर सकते हैं।
बड़ी मात्रा में डेटा को संसाधित करने से आप ऐसे पैटर्न का पता लगा सकते हैं जो पहले दुर्गम थे, कुछ भाषा सुविधाओं के विकास की भविष्यवाणी करते हैं, लगभग वास्तविक समय में शब्दों के गठन को ट्रैक करते हैं।
व्यावहारिक वैश्विक स्तर पर, उदाहरण के लिए, सार्वजनिक भावना का आकलन करने के लिए एक संभावित उपकरण के रूप में निगम पर विचार किया जा सकता है - इंटरनेट वास्तविक उपयोगकर्ताओं द्वारा बनाए गए विभिन्न ग्रंथों का निरंतर अद्यतन डेटाबेस है: ये टिप्पणियां, समीक्षाएं, लेख हैं, और भाषण के कई अन्य रूप।
इसके अलावा, निगम के साथ काम करना उसी तकनीकी साधनों के विकास में योगदान देता है जो सूचना पुनर्प्राप्ति में शामिल हैं, जो हमें Google या यांडेक्स सेवाओं, मशीन अनुवाद, इलेक्ट्रॉनिक शब्दकोशों से परिचित हैं।
यह कहना सुरक्षित है कि कॉर्पस भाषाविज्ञान केवल अपना पहला कदम उठा रहा है और निकट भविष्य में तेजी से विकसित होगा।