آنتروپی متقاطع

آنتروپی متقاطع بین دو توزیع احتمال p و q روی یک مجموعه داده شده، به صورت زیر تعریف می‌شود:

$H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q)$

جایی که $H(p)$ آنتروپی p و $D_{\mathrm {KL} }(p\|q)$ دیورژانس کولبک- لیبلر از p به q است.

برای p و q گسسته داریم:

$H(p,q)=-\sum _{x}p(x)\,\log q(x).$

که مشابه توزیع‌های پیوسته‌است. باید فرض کنیم که p و q با توجه به اندازه‌گیری مرجع r کاملاً پیوسته هستند.

اگر P و Q توابع چگالی احتمال p وq با توجه به r باشند، بنابراین:

$\int _{X}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q].$

توجه داشته باشید که نوتیشین $H(p,q)$ برای مفهوم دیگری برا pو q به نام آنتروپی توأم نیز مورد استفاده قرار می‌گیرد.

محرک

در تئوری اطلاعات، قضیه کرافت-مک‌میلن هر کدام از روش‌های کد قابل قبول را برای کدگذاری یک پیام شناسایی $x_{i}$ از مجموعه ای از احتمالات $X$ ، ایجاد می‌کند. این امر می‌تواند به صورت یک توزیع احتمال ضمنی $q(x_{i})=2^{-l_{i}}$ روی $X$ ، نشان داده شود، جایی که $l_{i}$ ، طول کد $x_{i}$ ، در حالت بیتی است؛ بنابراین آنتروپی متقاطع می‌تواند به عنوان طول پیام مورد انتظار در هر پایگاه داده تفسیر شود، زمانی که توزیع نادرست Q در حالی فرض می‌شود که داده‌ها توزیع P را دنبال می‌کنند. به همین دلیل است که توزیع احتمال مورد انتظار P است.

$H(p,q)=\operatorname {E} _{p}[l_{i}]=\operatorname {E} _{p}\left[\log {\frac {1}{q(x_{i})}}\right]$

$H(p,q)=\sum _{x_{i}}p(x_{i})\,\log {\frac {1}{q(x_{i})}}$

$H(p,q)=-\sum _{x}p(x)\,\log q(x).$

تخمین

موقعیت‌های زیادی وجود دارد که نیاز است آنتروپی متقاطع را اندازه‌گیری کرد، اما توزیع p نامعلوم است. یک مثال، مدل‌سازی زبان است جایی که مدل بر اساس مجموعه آموزشی T ایجاد می‌شود؛ و سپس آنتروپی متقاطع آن بر روی یک مجموعه آزمون، برای ارزیابی دقیق مدل در پیش‌بینی داده‌های آزمون اندازه‌گیری می‌شود. در این مثال،p توزیع درستی از کلمات در مجموعه ای از نوشته‌ها و q توزیع کلماتی است که توسط مدل، پیش‌بینی شده‌است. چون توزیع درست، نامعلوم است آنتروپی متقاطع نمی‌تواند مستقیماً اندازه‌گیری شود. در این حالت تخمین آنتروپی متقاطع، به صورت زیر محاسبه می‌شود:

$H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})$

جایی که n طول مجموعه آزمون و $q(x)$ احتمال وقوع رویداد x برآورد شده از مجموعه آزمون است. مجموع روی N محاسبه شده‌است. این یک تخمین مانته کورلو از آنتروپی متقاطع است، جایی که مجموعه آموزش به عنوان نمونه ای از $p(x)$ مورد استفاده قرار می‌گیرد.

ارتباط با احتمال لگاریتم

در شرایط طبقه بندی ما می خواهیم احتمال نتایج مختلف را تخمین بزنیم. اگر برآورد احتمال از i مقدار $q_{i}$ باشد، در حالی که فرکانس i در مجموعه آموزشی، $p_{i}$ است و N نمونه برای مجموعه آموزشی موجود باشد، احتمال مجموعه آموزشی به صورت زیر است:

$\prod _{i}q_{i}^{Np_{i}}$

بنابراین احتمال لگاریتم که توسط N تقسیم شده، به صورت زیر است:

${\frac {1}{N}}\log \prod _{i}q_{i}^{Np_{i}}=\sum _{i}p_{i}\log q_{i}=-H(p,q)$

بنابراین برای به حداکثر رساندن احتمال، باید آنتروپی متقابل حداقل باشد.

مینیمم کردن آنتروپی متقاطع

بهینه‌سازی متقاطع آنتروپی در اغلب موارد در بهینه‌سازی و تخمین احتمال، احتمالی نادرست استفاده می‌شود. هنگام مقایسه یک توزیع q در برابر توزیع موجع ثابت p، آنتروپی متقاطع و دیورژانس KL یک ثابت افزایشی یکسان هستند: هر دو زمانی که p=q مقدار حداقل را می گیرند، که دیورژانس KL صفر و $H(p)$ آنتروپی متقاطع است. در ادبیات مهندسی، اصل به حداقل رساندن دیورژانس KL را اصل به حداقل رساندن آنتروپی متقاطع می نامند. با این حال همانطور که در مقاله دیورژانس کولباک- لبلر بحث شده است، گاهی توزیع q یک توزیع پریور مرجع ثابت است و توزیع p برای نزدیک بودن به q با برخی از محدودیت ها بهینه سازی شده است. در این حالت دو معادله مساوی نیستند. این مسئله در نوشته ها باعث ابهاماتی شده است. برخی از نویسندگان برای حل ناپیوستگی با تعریف دوباره ای برای آنتروپی متقاطع که $D_{\mathrm {KL} }(p\|q)$ به جای $H(p,q)$ باشد، تلاش می کنند.

تابع خطای آنتروپی متقاطع و رگرسیون لجستیک

آنتروپی متقاطع می تواند برای تعریف تابع زیان در یادگیری و بهینه سازی ماشین استفاده شود. احتمال درست $p_{i}$ یک برچسب واقعی است و توزیع داده شده $q_{i}$ ارزش پیش بینی شده از مدل فعلی است. به طور خاص اجازه دهید رگرسیون لجستیک را در نظر بگیریم، که (در فرم اصلی آن) با طبقه بندی یک مجموعه داده ای از داده ها به دو دسته ممکن می پردازد که با صفر و یک برچسب گذاری شده است. بنابراین مدل رگرسیون لجستیک یک خروجی $y\in \{0,1\}$ را با توجه به ورودی $\mathbf {x}$ پیش بینی می کند. احتمال با تابع لجستیک $g(z)=1/(1+e^{-z})$ مدل می شود. یعنی احتمال یافتن خروجی $y=1$ به صورت زیر است:

$q_{y=1}\ =\ {\hat {y}}\ \equiv \ g(\mathbf {w} \cdot \mathbf {x} )\ =1/(1+e^{-\mathbf {w} \cdot \mathbf {x} }),$

جایی که بردار وزن w از طریق برخی الگوریتم های مناسب مثل سقوط گرادیان بهینه سازی شده است. به طور مشابه، احتمال مکمل یافتن خروجی $y=0$ به صورت زیر داده شده است:

$q_{y=0}\ =\ 1-{\hat {y}}$

احتمال واقعی (مشاهده شده) را می توان به صورت مشابه $p_{y=1}=y$ و $p_{y=0}=1-y$ بیان کرد. با قرار دادن نمادهای ما یعنی $p\in \{y,1-y\}$ و $q\in \{{\hat {y}},1-{\hat {y}}\}$ ما می توانیم آنتروپی متقاطع را برای اندازه گیری عدم هماهنگی بین $p$ و $q$ استفاده کنیم:

$H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})$

تابع هزینه معمولی که از آن در رگرسیون لجستیک استفاده می شود با در نظر گرفتن میانگین تمام انتروپی های متقابل در نمونه محاسبه می شود. به عنوان مثال، فرض کنید که ما N نمونه داریم برای هر نمونه نشان داده شده $n=1,\dots ,N$ . تابع زیان به صورت زیر است:

${\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}$

جایی که

${\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}}),$

با $g(z)$ مثل قبل یک تابع لجستیک است.

زیان لجستیک معمولاً آنتروپی متقاطع زیان نامیده می شود.

جستارهای وابسته

منابع

https://en.wikipedia.org/wiki/Cross_entropy