आवृत्ति पाठ विश्लेषण: विशेषताएं और उदाहरण

2024 लेखक: Angel Austin | [email protected]. अंतिम बार संशोधित: 2023-12-17 05:27

आप अपने जीवन में एक से अधिक बार इस अवधारणा से मिले हैं यदि आपको ग्रंथों के साथ काम करना है। विशेष रूप से, आप ऑनलाइन कैलकुलेटर की ओर रुख कर सकते हैं जो टेक्स्ट का फ़्रीक्वेंसी विश्लेषण करते हैं। ये आसान उपकरण दिखाते हैं कि पाठ के किसी भी अंश में कोई विशेष वर्ण या अक्षर कितनी बार आता है। अक्सर एक प्रतिशत भी दिखाया जाता है। इसकी आवश्यकता क्यों है? पाठ का आवृत्ति विश्लेषण सरल सिफर के "क्रैकिंग" में कैसे योगदान देता है? इसका सार क्या है, इसका आविष्कार किसने किया? हम लेख के दौरान इस विषय पर इन और अन्य महत्वपूर्ण सवालों के जवाब देंगे।

परिभाषा

आवृत्ति विश्लेषण क्रिप्टोएनालिसिस की किस्मों में से एक है। यह व्यक्तिगत वर्णों के सांख्यिकीय गैर-तुच्छ वितरण और सादे और सिफर पाठ दोनों में उनके नियमित अनुक्रमों के अस्तित्व के बारे में वैज्ञानिकों की धारणा पर आधारित है।

ऐसा माना जाता है कि इस तरह का वितरण, व्यक्तिगत वर्णों के प्रतिस्थापन तक, एन्क्रिप्शन/डिक्रिप्शन प्रक्रियाओं में भी संरक्षित किया जाएगा।

प्रक्रिया विशेषता

अब आइए सरल शब्दों में आवृत्ति विश्लेषण पर एक नजर डालते हैं। इसका तात्पर्य यह है कि एक ही भाषा में लिखे गए विभिन्न ग्रंथों में पर्याप्त लंबाई के ग्रंथों में एक ही वर्णानुक्रमिक वर्ण की घटनाओं की संख्या समान है।

और अब मोनोअल्फाबेटिक एन्क्रिप्शन के बारे में क्या? यह माना जाता है कि यदि सिफर टेक्स्ट वाले सेक्शन में ऐसी ही संभावना वाला कोई कैरेक्टर है, तो यह मान लेना यथार्थवादी है कि यह सिफर्ड लेटर है।

आवृत्ति पाठ विश्लेषण के अनुयायी एक ही तर्क को डिग्राम (दो अक्षरों के अनुक्रम) पर लागू करते हैं। ट्रिग्राम - यह पहले से ही बहुवर्णीय सिफर के मामले के लिए है।

विधि का इतिहास

शब्दों का बारंबारता विश्लेषण आधुनिकता की खोज नहीं है। यह 9वीं शताब्दी के बाद से वैज्ञानिक दुनिया के लिए जाना जाता है। इसकी रचना अल-किंडी नाम से जुड़ी हुई है।

लेकिन आवृत्ति विश्लेषण की पद्धति के उपयोग के ज्ञात मामले बहुत बाद की अवधि के हैं। यहां सबसे महत्वपूर्ण उदाहरण मिस्र के चित्रलिपि का गूढ़ रहस्य है, जिसे 1822 में जे.-एफ द्वारा निर्मित किया गया था। चैंपियन।

यदि हम कल्पना की ओर मुड़ें, तो हम इस डिक्रिप्शन पद्धति के कई दिलचस्प संदर्भ पा सकते हैं:

कॉनन डॉयल - "द डांसिंग मेन"।
जूल्स वर्ने - "कैप्टन ग्रांट के बच्चे"।
एडगर पो - "गोल्ड बग"।

हालांकि, पिछली शताब्दी के मध्य से, एन्क्रिप्शन में उपयोग किए जाने वाले अधिकांश एल्गोरिदम को इस तरह की आवृत्ति क्रिप्टोएनालिसिस के प्रतिरोध को ध्यान में रखते हुए विकसित किया गया है। इसलिए यहआज वे अक्सर भविष्य के क्रिप्टोग्राफरों को प्रशिक्षित करने के लिए ही उपयोग किए जाते हैं।

मूल तरीका

आइए अब आवृत्ति प्रतिक्रिया विश्लेषण को विस्तार से प्रस्तुत करते हैं। इस प्रकार का विश्लेषण सीधे इस तथ्य पर आधारित होता है कि परीक्षण में शब्द होते हैं, और वे, बदले में, अक्षरों के होते हैं। राष्ट्रीय अक्षरों को भरने वाले अक्षरों की संख्या सीमित है। पत्रों को बस यहां सूचीबद्ध किया जा सकता है।

इस तरह के पाठ की सबसे महत्वपूर्ण विशेषताएं अक्षरों की पुनरावृत्ति, विभिन्न बिग्राम, ट्रिग्राम और एन-ग्राम, साथ ही साथ विभिन्न अक्षरों की एक-दूसरे के साथ संगतता, व्यंजन / स्वरों का विकल्प और अन्य दोनों होंगे। इन प्रतीकों की किस्में।

तरीकों का मुख्य विचार राष्ट्रीय वर्णमाला के अक्षरों से बना विश्लेषण के लिए लंबे समय तक सादे पाठों में संभावित एन-ग्राम (एनएम द्वारा निरूपित) की घटनाओं की गणना करना है (टी=टी 1 टी 2 … टीएल द्वारा दर्शाया गया) ({a1, a2,…, an}) द्वारा दर्शाया गया है। उपरोक्त सभी पाठ के कुछ लगातार एम-ग्राम का कारण बनते हैं:

t1t2…tm, t2t3… tm+1,…, ti-m+1tl-m+2…tl.

यदि यह एम-ग्राम ai1ai2 की घटनाओं की संख्या है … एक निश्चित पाठ टी में लक्ष्य, और एल शोधकर्ता द्वारा विश्लेषण किए गए एम-ग्राम की कुल संख्या है, तो यह अनुभवजन्य रूप से स्थापित करना संभव है कि के लिए पर्याप्त रूप से बड़ा एल, ऐसे एम-ग्राम के लिए आवृत्तियां एक दूसरे से थोड़ी भिन्न होंगी।

रूसी वर्णमाला के अक्सर आने वाले अक्षर

लेकिन समय-आवृत्ति विश्लेषण, समान नाम के बावजूद, हमारी बातचीत के विषय से कोई लेना-देना नहीं है। इस तरह के विश्लेषण के लिए किया जाता हैएक विशेष तरंगिका परिवर्तन का उपयोग करके कम-अवलोकन योग्य रडार स्टेशनों से संकेत।

अब मुख्य विषय पर आते हैं। आवृत्ति विश्लेषण करते समय, आप यह पता लगा सकते हैं कि रूसी वर्णमाला के कौन से अक्षर अक्सर काफी मात्रा में ग्रंथों में पाए जाते हैं (0.062 से 0.018 का प्रतिशत):

ए.
वी.
डी.
एफ.
मैं.
के.
एम.
ओ.
आर.
टी.
एफ.
टी.
श्री
ख.
ई.
मैं.

यहां तक कि एक विशेष स्मरक नियम भी पेश किया गया है, जो रूसी वर्णमाला के सबसे सामान्य अक्षरों को सीखने में मदद करता है। ऐसा करने के लिए, बस एक शब्द याद रखना काफी है - "हेलॉफ्ट"।

सामान्य मामलों में, प्रतिशत शब्दों में अक्षरों के उपयोग की आवृत्ति बस सेट की जाती है: विशेषज्ञ यह गिनता है कि पाठ में अक्षर कितनी बार आता है, फिर परिणामी मान को पाठ में वर्णों की कुल संख्या से विभाजित करता है। और इस मान को प्रतिशत के रूप में व्यक्त करने के लिए, इसे 100 से गुणा करना पर्याप्त है।

यह विचार करना महत्वपूर्ण है कि आवृत्ति न केवल पाठ की मात्रा पर निर्भर करेगी, बल्कि इसकी प्रकृति पर भी निर्भर करेगी। उदाहरण के लिए, तकनीकी स्रोतों में "एफ" अक्षर कल्पना की तुलना में बहुत अधिक बार दिखाई देता है। इसलिए, वस्तुनिष्ठ परिणामों के लिए, एक विशेषज्ञ को शोध के लिए विभिन्न प्रकृति और शैली के ग्रंथों को टाइप करना होगा।

द्वि-, त्रि-, चार ग्राम

अर्थपूर्ण ग्रंथों में, आप सबसे सामान्य (क्रमशः, सबसे अधिक.) भी पा सकते हैंदोहराया) दो या दो से अधिक अक्षरों का संयोजन। विशेषज्ञों ने कई तालिकाओं को भी संकलित किया है, जो विभिन्न अक्षरों के समान अंकों की आवृत्तियों को दर्शाती हैं।

रूसी के लिए, विशाल अर्थपूर्ण ग्रंथों की प्रणालियों के आवृत्ति विश्लेषण ने सबसे आम बिग्राम और ट्रिग्राम स्थापित करना संभव बना दिया:

एन.
अजजा.
लेकिन.
नहीं।
चालू.
आरए.
ओवी.
KO.
वीओ.
एसटीओ।
नया
ईनो।
टीओवी।
ओवीए।
ओवीओ।

एक दूसरे को पत्रों के पसंदीदा संबंध

और यह सभी संभावनाएं नहीं हैं जो पाठ शोधकर्ताओं को आवृत्ति विश्लेषण प्रदान कर सकती हैं। बिग्राम और ट्रिग्राम की समान तालिकाओं से जानकारी को व्यवस्थित करके, अक्षरों के सबसे सामान्य संयोजनों पर डेटा निकालना संभव है। या, दूसरे शब्दों में, एक दूसरे के साथ उनके पसंदीदा संबंध।

इस तरह का व्यापक अध्ययन पहले ही विशेषज्ञों द्वारा किया जा चुका है। इसका परिणाम एक तालिका थी, जहां वर्णमाला के प्रत्येक अक्षर के साथ, उसके पड़ोसियों को इंगित किया गया था। इसके अलावा, वे पात्र जो अक्सर इसके ठीक पहले और उसके बाद दोनों में पाए जाते हैं। तालिका में अक्षरों को संयोग से नहीं लिखा गया है। प्रतीक के करीब, सबसे लगातार पड़ोसियों को इंगित किया जाता है, आगे - अधिक दुर्लभ वाले।

उदाहरणों पर विचार करें:

पत्र "ए"। निम्नलिखित पसंदीदा कनेक्शन यहां प्रतिष्ठित हैं: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m। यहां से हम देखते हैं कि अक्सर "ए" से पहले ग्रंथों में "एच" ("एनए") होता है। और "ए" के बाद अक्सर रूसी में ग्रंथों में हम "एल" से मिल सकते हैं("एएल")।
अक्षर "एम"। विशेषज्ञों ने ऐसे पसंदीदा कनेक्शनों की पहचान की है: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s"।
अक्षर "बी"। पसंदीदा कनेक्शन इस प्रकार हैं: "n-s-t-l-b-n-k-v-p-s-e-o-i"।
अक्षर "श"। पसंदीदा कनेक्शन: "e-b-a-i-u-Sch-e-i-a"।
अक्षर "पी"। रूसी वर्णमाला के इस प्रतीक के साथ पसंदीदा कनेक्शन: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l"।

विश्लेषण क्या परिभाषित करता है?

आधुनिक आवृत्ति पाठ विश्लेषण कार्यक्रम विभिन्न प्रकार के लेखों, निबंधों, परिच्छेदों आदि के बड़े संस्करणों का अध्ययन करने में मदद करते हैं। मानक के रूप में शोधकर्ता को निम्नलिखित जानकारी प्रदान की जाती है:

पाठ में वर्णों की कुल संख्या।
लेखक द्वारा उपयोग किए गए रिक्त स्थान की संख्या।
अंकों की संख्या।
प्रयुक्त विराम चिह्नों के बारे में जानकारी - आवर्त, अल्पविराम, आदि।
उपलब्ध अक्षरों में से प्रत्येक में अक्षरों की संख्या - सिरिलिक, लैटिन, आदि।
पाठ में प्रत्येक अक्षर और प्रतीक के उपयोग की आवृत्ति के बारे में जानकारी - पूरे पाठ की तुलना में उल्लेखों की संख्या और प्रतिशत।

अति अनुकूलन और अतिसंतृप्ति के खिलाफ संघर्ष

पाठ्य आवृत्ति विश्लेषण क्यों किया जाता है? क्या यह सिर्फ जिज्ञासा के उद्देश्य के लिए है - यह स्थापित करने के लिए कि लिखित पाठ में कौन से पात्र अक्सर सामने आए? नहीं, विश्लेषण का मुख्य अनुप्रयोग व्यावहारिक है, और यह कहीं और है।

एन-ग्राम में न केवल स्थिर बिग्राम और ट्रिग्राम शामिल हैं। उसी के लिएश्रेणियों में कीवर्ड (टैग), कोलोकेशन शामिल हैं। अर्थात् दो या दो से अधिक शब्दों से मिलकर बना स्थिर संयोजन। वे इस तथ्य से प्रतिष्ठित हैं कि ऐसी रचनाएँ पाठ में एक साथ होती हैं और एक ही समय में एक निश्चित शब्दार्थ भार वहन करती हैं।

यह बेईमान एसईओ विशेषज्ञों के हाथों में खेलता है। अपने काम में, वे कभी-कभी किसी विशेष वेब पेज की प्रासंगिकता को कृत्रिम रूप से बढ़ाने के लिए टेक्स्ट में टैग और कीवर्ड की पुनरावृत्ति का दुरुपयोग करते हैं। वे इस तरह की "चाल" के साथ सिस्टम को धोखा देने की कोशिश कर रहे हैं: शब्दों के सामान्य संयोजन के साथ एक प्राकृतिक संयोजन को बदलना, रूसी भाषा के लिए पारंपरिक ("एक मिंक कोट खरीदें") एक असंगत में। यानी ऐसे प्राकृतिक एन-ग्राम ("एक मिंक कोट खरीदें") में शब्दों को पुनर्व्यवस्थित करके प्राप्त किया जाता है।

लेकिन आज, खोज एल्गोरिदम ने ओवरऑप्टिमाइज़ेशन का पता लगाना उतना ही प्रभावी रूप से सीख लिया है जितना कि ओवरस्पैम - कीवर्ड, टैग के साथ टेक्स्ट का ओवरसैचुरेशन जो खोज पृष्ठ पर परिणामों की रैंकिंग को प्रभावित करता है। इसके विपरीत, अति-अनुकूलित पृष्ठ अब उपयोगकर्ता की क्वेरी से कम रैंक वाले हैं। और लोग स्वयं किसी अन्य संसाधन पर उपयोगी जानकारी को प्राथमिकता देते हुए, अर्थहीन, टैग टेक्स्ट से अधिक संतृप्त पढ़ने की प्रवृत्ति नहीं रखते हैं।

SEO विशेषज्ञों के लिए निजी विश्लेषण में मदद करना

इस प्रकार, आधुनिक सर्च इंजन टेक्स्ट फिल्टर आज उन इंटरनेट पेजों को वरीयता देते हैं, जिन पर जानकारी न केवल पढ़ने में आसान है, बल्कि आगंतुकों के लिए भी उपयोगी है। नए मानकों के लिए अपने काम को अनुकूलित करने के लिए, एसईओ विशेषज्ञऔर पाठ के आवृत्ति विश्लेषण की ओर मुड़ें। कई लोकप्रिय सेवाएं आज इसे प्रदान करती हैं।

आवृत्ति विश्लेषण सूचनात्मकता के लिए प्रकाशन के लिए तैयार किए जा रहे पाठ की समीक्षा करने में मदद करता है। टैग और प्रमुख वाक्यांशों की अनावश्यक अतिरेक को हटा दें। यह आपको लेखक का ध्यान उन शब्दों के अप्राकृतिक संयोजन की ओर आकर्षित करने की भी अनुमति देता है जो खोज इंजन के टेक्स्ट फ़िल्टर में संदेह पैदा करते हैं।

पाठ्य का आवृत्ति विश्लेषण इस प्रकार स्रोत में किसी विशेष वर्ण के उल्लेख की आवृत्ति को निर्धारित करने में मदद करता है। टैग के साथ टेक्स्ट ओवरलोड, शब्दों के अप्राकृतिक क्रमपरिवर्तन का आकलन करने के लिए आज विधि का उपयोग किया जाता है।