آنتروپی اطلاعات
مفاهیم | |
چهرههای مهم | |
کلود شانون | |
جوایز مهم | |
در نظریه اطلاعات، آنتروپی (به انگلیسی: Entropy) یا اِنتروپی، معیاری عددی برای اندازه گرفتن اطلاعات، یا تصادفی بودن یک متغیر تصادفی است. به بیان دقیقتر، آنتروپی یک متغیر تصادفی، متوسط اطلاعات آن است. با داشتن یک متغیر تصادفی گسسته ، که مقادیری از الفبای میگیرد و از توزیع پیروی میکند، آنتروپی برای آن به صورت زیر تعریف میشود:
هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است؛ به این معنی که پس از مشاهدهی آن، اطلاعات بهدستآمده از آن بیشتر خواهد بود.
آنتروپی یک منبع اطلاعات، حد پایین نرخ بهترین فشردهسازی بیاتلاف دادههای آن منبع است.
اطلاعات حاصل از مشاهده یک رویداد تصادفی، برابر با منفی لگاریتم احتمال رخ دادن آن تعریف میشود. یک تابع برای اندازه گرفتن اطلاعات یک رویداد تصادفی، ویژگیهایی دارد:
- اینکه اندازهی اطلاعات، نامنفی باشد.
- اطلاعات حاصل از مشاهدهٔ یک رویداد قطعی (یعنی با احتمال برابر با یک) صفر باشد.
- مهمتر از همه اینکه، اطلاعات حاصل از دو مشاهدهٔ مستقل، برابر با جمع اطلاعات حاصل از مشاهدهٔ تکتک آنها باشد.
میتوان نشان داد تنها تابعی که این سه ویژگی را برمیآورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایههای مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداولترین پایهٔ لگاریتم در محاسبهٔ اطلاعات ۲ است که اطلاعات را در واحد بیت محاسبه میکند.
بهطور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بینظمی است. کلود شانون در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایهگذار نظریهٔ اطلاعات شد.[۱]
آنتروپی در نظریهٔ اطلاعات رابطهٔ تنگاتنگی با مفهوم آنتروپی در ترمودینامیک آماری دارد. این قیاس برخاسته از این است که مقادیر متغیرهای تصادفی، انرژی ریزحالتها را تعیین میکنند و برای همین فرمول گیبز برای آنتروپی به صورت صوری دقیقاً مانند فرمول شانون است. آنتروپی در سایر بخشهای ریاضی همچون ترکیبیات و یادگیری ماشین نیز دارای اهمیت است.
مقدمه
ویرایشایدهٔ اصلی نظریه اطلاعات این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل میکند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام، اطلاعات آگاهکنندهتری را منتقل میکند. برای نمونه، دانش اینکه عددی خاص، عدد برندهٔ یک بختآزمایی نیست، اطلاع بسیار کمی در اختیار ما قرار میدهد چرا که هر عدد خاص انتخابی به احتمال زیاد برنده نخواهد شد. ولی دانش اینکه عددی خاص برندهٔ بختآزمایی خواهد بود، ارزش اطلاعاتی زیادی دارد چراکه پیام آن رخداد یک پیامد بسیاد نامحتمل است.
محتوای اطلاعاتی یک رویداد ، تابعی است که با کاهش احتمال آن رویداد افزایش مییابد. هنگامی که به یک نزدیک میشود، شگفتی رویداد کم است چرا که انتظار رخداد آن را داریم و هنگامی که به صفر نزدیک میشود، شگفتی رویداد زیاد است چرا که انتظار رخداد آن رویداد را نداریم. این رابطه توسط رابطهٔ زیر مشروح است:
که در این رابطه یا همان لگاریتم هنگامی که احتمال رویداد برابر با یک است، میزان شگفتی را صفر میکند.[۲] در اصل، تنها تابعی است که این مجموعه از توصیفها را ارضا میکند. بنابراین میتوان میزان اطلاع یا شگفتی رویداد برابر است با:
که برابر با عبارت زیر است:
آنتروپی، مقدار مورد انتظار (میانگین) اطلاعات منتقل شده با تشخیص خروجی یک آزمایش تصادفی را به ما میدهد.[۳]
تعریف
ویرایشآنتروپی متغیر تصادفی گسستهٔ با تابع چگالی احتمال را با نمایش میدهند که اینگونه تعریف میشود:
در رابطهٔ بالا
تابع امید ریاضی و تابع میزان اطلاعات رویداد است. تابعی از یک متغیر تصادفی، و در نتیجه یک متغیر تصادفی است. پایهٔ لگاریتم است و آنتروپی را با واحدهای متفاوت به دست میدهد. متداولترین ،۲، e، و ۱۰ هستند که به ترتیب آنتروپی را در واحدهای بیت و nat و hartley به دست میدهد.
میتوان آنتروپی را به صورت باز هم نوشت:
همچنین، را صفر تعریف میکنیم که با مشاهدهٔ نیز سازگار است.
آنتروپی متغیر تصادفی به شرط با توزیع احتمال مشترک نیز به صورت زیر تعریف میشود:
میانگین اطلاعات حاصل از مشاهدهٔ به شرط اطلاع از را نشان میدهد.
نظریه اندازه
ویرایشآنتروپی را میتوان به صورت صوری در زبان نظریهٔ اندازه به صورت روبهرو تعریف کرد:[۴] اگر یک فضای احتمالاتی باشد و پیشامد را داشته باشیم، مقدار شگفتی برابر است با:
مقدار امید شگفتی برابر است با:
یک افراز almost- خانوادهای از مجموعهها است به گونهای که و برای هر متمایز. (این یک سستسازی از شروط همیشگی برای افراز است.) آنتروپی برابر است با:
اگر یک جبر سیگما بر روی باشد، آنتروپی برابر است با:
در نهایت، آنتروپی فضای احتمالاتی برابر است با ، یعنی آنتروپی نسبت به همهٔ جبر سیگمای همهٔ زیرمجموعههای قابل اندازهگیری .
مثال
ویرایشمتغیر تصادفی ، نتیجهٔ پرتاب یک سکه با احتمال شیر و خط است. هرچقدر به نزدیکتر باشد، ابهام در مورد نتیجهٔ پرتاب بیشتر است و به همین ترتیب اطلاع از نتیجهٔ پرتاب بهطور میانگین، اطلاعات بیشتری دربردارد. در واقع بیشترین آنتروپی برای و برابر با ۱ بیت است.
وقتی صفر یا یک باشد، هیچ ابهامی درباره نتیجهٔ پرتاب نیست و به همین ترتیب اطلاع از نتیجهٔ پرتاب هیچ اطلاعاتی در برندارد.
برای انتظار داریم آنتروپی کمتر از مورد یکنواخت و بیشتر از مورد بیابهام باشد.
بهطور کلی، توزیع یکنواخت، بیشترین آنتروپی، و یک رویداد قطعی، کمترین آنتروپی را دارا هستند.
توصیف صفات
ویرایشبرای درک مفهوم ، ابتدا یک تابع اطلاعات برای رویداد ام با احتمال تعریف میکنیم. مقدار اطلاعات بدست آمده از مشاهده پدیدهٔ از ویژگیهای بنیادین اطلاعات شانون پیروی میکند:[۵]
- به صورت یکنوا در کاهش مییابد: افزایش در احتمال یک رویداد، اطلاعات حاصل از مشاهدهٔ آن را کاهش میدهد و بلعکس.
- : رویدادهایی که همیشه رخ میدهند، هیچ اطلاعاتی را منتقل نمیکنند.
- : اطلاعات آموخته شده از رویدادهای مستقل برابر است با جمع اطلاعات بدست آمده از هر رویداد.
با فرض داشتن دو رویداد مستقل، اگر رویداد اول پیامد همشانس و دیگری پیامد همشانس داشته باشد، در این صورت پیامد همشانس برای رویداد توأم آنها وجود دارد. این بدان معناست که اگر برای رمزگذاری مقدار اول بیت و برای رمزگذاری مقدار دوم به بیت نیاز داشته باشیم، برای رمزگذاری هر دوی آنها به بیت نیاز داریم.
شانون کشف کرد که یک انتخاب مناسب برای به صورت زیر است:[۶]
در واقع تنها مقادیر ممکن برای به فرم به ازای مقادیر منفی برای میباشند. همچنین گزینش یک مقدار برای ، همارز با گزینش مقدار برای است که در این صورت میتوان مقدار پایهٔ لگاریتم را به کمک تغییر داد. بنابرین آنتروپی با ویژگیهای فوق توصیف میشود.
فشردهسازی دادهها
ویرایشآنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشردهسازی بدون اتلاف دادههای آن منبع است. به بیان دقیقتر هیچ روش فشردهسازی ای وجود ندارد که بهطور میانگین مقدار متغیر تصادفی را با کمتر از بیت فشرده کند. این حد پایین بسیار قوی است، بهطوری که برای دنبالههای به طول از دادههای هر منبع تصادفی ، یک روش فشردهسازی وجود دارد که بهطور میانگین، نتیجه هر مشاهده را حداکثر با بیت فشرده میکند.
آنتروپی به عنوان معیاری از تنوع
ویرایشآنتروپی یکی از راههای متعدد سنجش تنوع زیستی است و از آن به صورت شاخص شانون استفاده میشود.[۷] شاخص تنوع یک معیار کمی آماری برای بررسی انواع گوناگون موجود در یک مجموعهٔ داده است.
کاربرد در یادگیری ماشین
ویرایشروشهای یادگیری ماشین به طور عمده مبتنی بر آمار و همچنین نظریهٔ اطلاعات است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است.
الگوریتمهای یادگیری درخت تصمیم از آنتروپی نسبی استفاده میکنند تا قوانین تصمیمگیری حاکم بر دادهها در هر گره را پیدا کند.[۸] کسب اطلاعات در درختهای تصمیم ، که برابر است با تفاوت آنتروپی و آنتروپی شرطی به شرط ، اطلاع مورد انتظار را کمیت دهی میکند.
مدلهای استنباط بیزی اغلب با استفاده از اصل حداکثر آنتروپی، توزیع احتمال پیشین را بدست میآورند.[۹] منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است.
طبقهبندی در یادگیری ماشین که توسط رگرسیون لجستیک یا شبکههای عصبی مصنوعی پیادهسازی میشود، اغلب از از یک تابع زیان استاندارد، به نام زیان آنتروپی متقاطع، استفاده میکند که میانگین آنتروپی متقاطع بین واقعیت و توزیعهای پیشبینی شده را کمینه میکند. [۱۰] به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ دادهها است، مانند واگرایی کولبک-لیبلر یا همان آنتروپی نسبی.
جستارهای وابسته
ویرایشمنابع
ویرایش- ↑ Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Entropy (for data science) Clearly Explained!!!, retrieved 2022-12-19
- ↑ «David MacKay: Information Theory, Inference, and Learning Algorithms: The Book». www.inference.org.uk. دریافتشده در ۲۰۲۲-۱۲-۱۹.
- ↑ Entropy in nLab
- ↑ Carter، Tom (مارس ۲۰۱۴). An introduction to information theory and entropy [مقدمهای بر نظریهٔ اطلاعات و آنتروپی] (PDF).
- ↑ Chakrabarti, C. G., and Indranil Chakrabarty. "Shannon entropy: axiomatic characterization and application." International Journal of Mathematics and Mathematical Sciences 2005.17 (2005): 2847-2854 url
- ↑ Spellerberg, Ian F.; Fedor, Peter J. (2003-05). "A tribute to Claude Shannon (1916-2001) and a plea for more rigorous use of species richness, species diversity and the 'Shannon-Wiener' Index: On species richness and diversity". Global Ecology and Biogeography (به انگلیسی). 12 (3): 177–179. doi:10.1046/j.1466-822X.2003.00015.x.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
- ↑ Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.
- Elements of Information Theory (انگلیسی)