सूचनात्मक एन्ट्रापी की अवधारणा का तात्पर्य किसी मान के लिए संभाव्यता द्रव्यमान फलन का ऋणात्मक लघुगणक है। इस प्रकार, जब डेटा स्रोत का मान कम प्रायिकता वाला होता है (अर्थात, जब कम संभावना वाली कोई घटना घटित होती है), तो उस घटना में उस समय की तुलना में अधिक "सूचना" ("आश्चर्य") होती है, जब स्रोत डेटा का मान उच्च संभावना वाला होता है.
इस तरह से परिभाषित प्रत्येक घटना द्वारा दी गई जानकारी की मात्रा एक यादृच्छिक चर बन जाती है जिसका अपेक्षित मूल्य सूचना एन्ट्रापी है। आम तौर पर, एन्ट्रॉपी विकार या अनिश्चितता को संदर्भित करता है, और सूचना सिद्धांत में उपयोग की जाने वाली इसकी परिभाषा सीधे सांख्यिकीय थर्मोडायनामिक्स में उपयोग की जाने वाली परिभाषा के अनुरूप होती है। आईई की अवधारणा को क्लाउड शैनन ने अपने 1948 के पेपर "ए मैथमैटिकल थ्योरी ऑफ कम्युनिकेशन" में पेश किया था। यहीं से "शैनन की सूचनात्मक एन्ट्रापी" शब्द आया है।
परिभाषा और प्रणाली
डेटा ट्रांसमिशन सिस्टम के मूल मॉडल में तीन तत्व होते हैं: एक डेटा स्रोत, एक संचार चैनल और एक रिसीवर,और, जैसा कि शैनन कहते हैं, "बुनियादी संचार समस्या" रिसीवर के लिए यह पहचानने में सक्षम है कि चैनल पर प्राप्त होने वाले सिग्नल के आधार पर स्रोत द्वारा कौन सा डेटा उत्पन्न किया गया था। एन्ट्रॉपी संपीड़ित स्रोत डेटा की कम से कम संभव औसत दोषरहित एन्कोडिंग लंबाई पर एक पूर्ण बाधा प्रदान करता है। यदि स्रोत की एन्ट्रापी संचार चैनल की बैंडविड्थ से कम है, तो यह जो डेटा उत्पन्न करता है उसे रिसीवर को विश्वसनीय रूप से प्रेषित किया जा सकता है (कम से कम सिद्धांत में, शायद कुछ व्यावहारिक विचारों की उपेक्षा करना जैसे कि डेटा संचारित करने के लिए आवश्यक सिस्टम की जटिलता और डेटा संचारित करने में जितना समय लग सकता है)।
सूचना एन्ट्रापी को आमतौर पर बिट्स (वैकल्पिक रूप से "शैनन" कहा जाता है) या कभी-कभी "प्राकृतिक इकाइयों" (नैट्स) या दशमलव स्थानों (जिन्हें "डिट्स", "बैन" या "हार्टलेज़" कहा जाता है) में मापा जाता है। माप की इकाई लघुगणक के आधार पर निर्भर करती है, जिसका उपयोग एन्ट्रापी को निर्धारित करने के लिए किया जाता है।
गुण और लघुगणक
लॉग प्रायिकता वितरण एन्ट्रापी के माप के रूप में उपयोगी है क्योंकि यह स्वतंत्र स्रोतों के लिए योगात्मक है। उदाहरण के लिए, एक सिक्के की उचित शर्त की एन्ट्रॉपी 1 बिट है, जबकि एम-वॉल्यूम की एन्ट्रॉपी एम बिट्स है। एक साधारण प्रतिनिधित्व में, लॉग 2 (एन) बिट्स को एक चर का प्रतिनिधित्व करने की आवश्यकता होती है जो एन मानों में से एक पर ले सकता है यदि एन 2 की शक्ति है। यदि ये मान समान रूप से संभावित हैं, तो एंट्रॉपी (बिट्स में) है उस संख्या के बराबर। यदि मूल्यों में से एक दूसरों की तुलना में अधिक होने की संभावना है, तो अवलोकन कि यह हैअर्थ होता है, कम जानकारीपूर्ण होता है यदि कुछ कम सामान्य परिणाम होता। इसके विपरीत, दुर्लभ ईवेंट अतिरिक्त ट्रैकिंग जानकारी प्रदान करते हैं।
क्योंकि कम संभावित घटनाओं का अवलोकन कम बार-बार होता है, इसमें कुछ भी समान नहीं है कि असमान रूप से वितरित डेटा से प्राप्त एन्ट्रापी (औसत जानकारी मानी जाती है) हमेशा लॉग 2 (एन) से कम या बराबर होती है। जब एक परिणाम परिभाषित किया जाता है तो एन्ट्रॉपी शून्य होती है।
शैनन की सूचना एन्ट्रापी इन विचारों को परिमाणित करती है जब अंतर्निहित डेटा का संभाव्यता वितरण ज्ञात होता है। एन्ट्रापी की परिभाषा में देखी गई घटनाओं (संदेशों का अर्थ) का अर्थ अप्रासंगिक है। उत्तरार्द्ध केवल किसी विशेष घटना को देखने की संभावना को ध्यान में रखता है, इसलिए यह जो जानकारी समाहित करता है वह संभावनाओं के अंतर्निहित वितरण के बारे में डेटा है, न कि स्वयं घटनाओं के अर्थ के बारे में। सूचना एन्ट्रापी के गुण ऊपर बताए अनुसार ही रहते हैं।
सूचना सिद्धांत
सूचना सिद्धांत का मूल विचार यह है कि कोई व्यक्ति किसी विषय के बारे में जितना अधिक जानता है, उसके बारे में उतनी ही कम जानकारी प्राप्त कर सकता है। यदि कोई घटना होने की बहुत अधिक संभावना है, तो यह आश्चर्यजनक नहीं है कि यह कब घटित होती है और इसलिए बहुत कम नई जानकारी प्रदान करती है। इसके विपरीत, यदि घटना असंभव थी, तो यह घटना होने के बारे में अधिक जानकारीपूर्ण थी। इसलिए, पेलोड घटना की व्युत्क्रम संभावना (1 / पी) का बढ़ता हुआ कार्य है।
अब अगर और घटनाएं होती हैं, तो एन्ट्रापीऔसत सूचना सामग्री को मापता है जिसकी आप अपेक्षा कर सकते हैं यदि कोई एक घटना होती है। इसका अर्थ यह है कि पासे को उछालने की तुलना में पासे की ढलाई में अधिक एन्ट्रापी होती है क्योंकि प्रत्येक क्रिस्टल परिणाम में प्रत्येक सिक्के के परिणाम की तुलना में कम संभावना होती है।
विशेषताएं
इस प्रकार, एन्ट्रापी एक राज्य की अप्रत्याशितता का एक उपाय है या, जो एक ही बात है, इसकी औसत सूचना सामग्री। इन शब्दों की सहज समझ प्राप्त करने के लिए, एक राजनीतिक सर्वेक्षण के उदाहरण पर विचार करें। आमतौर पर ऐसे चुनाव होते हैं, उदाहरण के लिए, चुनावों के परिणाम अभी तक ज्ञात नहीं हैं।
दूसरे शब्दों में, सर्वेक्षण के परिणाम अपेक्षाकृत अप्रत्याशित हैं, और वास्तव में, इसे संचालित करने और डेटा की जांच करने से कुछ नई जानकारी मिलती है; वे यह कहने के अलग-अलग तरीके हैं कि चुनाव परिणामों की पूर्व एन्ट्रापी बड़ी है।
अब उस मामले पर विचार करें जहां एक ही मतदान पहले के तुरंत बाद दूसरी बार किया जाता है। चूंकि पहले सर्वेक्षण का परिणाम पहले से ही ज्ञात है, दूसरे सर्वेक्षण के परिणामों का अच्छी तरह से अनुमान लगाया जा सकता है और परिणामों में अधिक नई जानकारी नहीं होनी चाहिए; इस मामले में, दूसरे मतदान परिणाम की प्राथमिक एन्ट्रापी पहले वाले की तुलना में छोटी है।
सिक्का टॉस
अब एक सिक्का उछालने के उदाहरण पर विचार करें। यह मानते हुए कि पटों की प्रायिकता चित की प्रायिकता के समान है, एक सिक्के के उछाल की एन्ट्रापी बहुत अधिक होती है, क्योंकि यह एक प्रणाली की सूचनात्मक एन्ट्रापी का एक विशिष्ट उदाहरण है।
ऐसा इसलिए है क्योंकियह भविष्यवाणी करना असंभव है कि एक सिक्के का परिणाम समय से पहले उछाला जाता है: यदि हमें चुनना है, तो सबसे अच्छा हम यह अनुमान लगा सकते हैं कि सिक्का पूंछ पर उतरेगा, और यह भविष्यवाणी सही होने की संभावना के साथ सही होगी 1 / 2. इस तरह के एक सिक्के के उछाल में एक बिट एन्ट्रापी होती है, क्योंकि दो संभावित परिणाम होते हैं जो समान संभावना के साथ होते हैं, और वास्तविक परिणाम का अध्ययन करने में एक बिट जानकारी होती है।
इसके विपरीत, टेल और बिना चित के दोनों पक्षों का उपयोग करके एक सिक्के को फ़्लिप करने पर शून्य एन्ट्रॉपी होती है क्योंकि सिक्का हमेशा इस संकेत पर उतरेगा और परिणाम का पूरी तरह से अनुमान लगाया जा सकता है।
निष्कर्ष
यदि संपीड़न योजना दोषरहित है, जिसका अर्थ है कि आप हमेशा संपूर्ण मूल संदेश को डीकंप्रेस करके पुनर्प्राप्त कर सकते हैं, तो संपीड़ित संदेश में मूल के समान ही जानकारी होती है, लेकिन कम वर्णों में प्रसारित होती है। यानी इसमें प्रति चरित्र अधिक जानकारी या उच्च एन्ट्रापी है। इसका मतलब है कि संपीड़ित संदेश में कम अतिरेक है।
मोटे तौर पर, शैनन के स्रोत कोड कोडिंग प्रमेय में कहा गया है कि एक दोषरहित संपीड़न योजना औसतन संदेशों को प्रति संदेश बिट में एक बिट से अधिक जानकारी के लिए कम नहीं कर सकती है, लेकिन प्रति बिट एक बिट से कम कोई भी मूल्य प्राप्त किया जा सकता है। उपयुक्त एन्कोडिंग योजना का उपयोग कर संदेश। किसी संदेश की एन्ट्रॉपी उसकी लंबाई के बिट्स गुणा में होती है, यह इस बात का माप है कि उसमें कितनी सामान्य जानकारी है।