مدل تمایزی

مدل‌های متمایز یا مدل‌های شرطی دسته‌ای از مدل‌های لجستیکی هستند که برای طبقه‌بندی یا رگرسیون استفاده می‌شوند. آنها مرزهای تصمیم را از طریق داده های مشاهده شده، مانند پاس/شکست، برد/باخت، زنده/مرده یا سالم/بیمار از هم تشخیص می دهند.

مدل‌های متمایز عادی شامل رگرسیون لجستیک (LR)، میدان‌ تصادفی شرطی (CRFs) (نشان شده بر روی یک گراف غیر جهت‌دار)، درخت‌ تصمیم‌گیری و بسیاری مدل های دیگر هستند. رویکردهای مدل سازنده معمولی شامل طبقه‌بندی‌کننده‌های ساده بیز ، مدل‌های مخلوط گاوسی ، رمزگذارهای خودکار متغیر ، شبکه‌های متخاصم مولد و غیره است.

تعریف ویرایش

بر خلاف مدل سازی مولد که احتمال مشترک $P(x,y)$ را مطالعه می کند ، مدل سازی افتراقی $P(y|x)$ را بررسی می کند یا متغیر مشاهده نشده (هدف) $x$ به برچسب کلاس $y$ وابسته به متغیرهای مشاهده شده (نمونه های آموزشی) نگاشت می کند. به عنوان مثال، در تشخیص اشیا ، $x$ احتمالاً بردار پیکسل های خام (یا ویژگی های استخراج شده از پیکسل های خام تصویر) است. در یک چارچوب احتمالی، این کار با مدل‌سازی توزیع احتمال شرطی $P(y|x)$ انجام می‌شود، که می تواند برای پیش بینی $y$ از جانب $x$ استفاده شود. توجه داشته باشید که هنوز بین مدل شرطی و مدل تمایزی تفاوت وجود دارد، اگرچه اغلب آنها به سادگی به عنوان مدل تمایزی طبقه بندی می شوند.

مدل تمایز محض در مقابل مدل مشروط ویرایش

یک مدل شرطی، توزیع احتمال شرطی را مدل می‌کند، در حالی که هدف مدل تمایزی سنتی، بهینه‌سازی در نگاشت ورودی در اطراف مشابه‌ترین نمونه‌های آموزش‌دیده است.

رویکردهای مدل‌سازی تمایزی معمولی ویرایش

رویکرد زیر بر این فرض پایبند است که مجموعه داده های آموزشی $D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}$ به عنوان ورودی به آن داده شده است، به طوریکه $y_{i}$ خروجی مربوط به ورودی $x_{i}$ است . ^[۱]

طبقه بندی خطی ویرایش

ما قصد داریم از تابع $f(x)$ استفاده کنیم تا آنچه از رفتار مجموعه داده های آموزشی با روش طبقه بندی کننده خطی مشاهده کردیم را شبیه سازی کنیم. با استفاده از بردار ویژگی مشترک $\phi (x,y)$ ، تابع تصمیم به صورت زیر است:

f(x;w)=\arg \max _{y}w^{T}\phi (x,y)

طبق تفسیر میمیشویچ، فرمول ^[۱] $w^{T}\phi (x,y)$ ، که همچنین همانند $c(x,y;w)$ است، امتیاز سازگاری ورودی $x$ را با خروجی بالقوه $y$ را محاسبه می کند. سپس $\arg \max$ کلاس با بالاترین امتیاز را تعیین می کند.

رگرسیون لجستیک (LR) ویرایش

همین طور که تابع هزینه 0-1 به طور معمول در تئوری تصمیم استفاده می شود، توزیع احتمال شرطی $P(y|x;w)$ ، جایی که $w$ یک بردار پارامتر برای بهینه سازی داده های آموزشی است ، می تواند برای مدل رگرسیون لجستیک به صورت زیر در نظر گرفته شود:

P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))

، با

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))

معادله بالا رگرسیون لجستیک را به ما نشان می دهد. توجه داشته باشید که یک تفاوت عمده بین مدل ها، روش آنها برای معرفی احتمال پسین است. احتمال پسین از مدل پارامتریک استنباط می شود. سپس می توانیم پارامتر را با معادله زیر به حداکثر برسانیم:

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)

همچنین می تواند با معادله log-loss زیر جایگزین شود:

l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})

از آنجایی که log-loss قابل تمایز است، می توان از روش مبتنی بر گرادیان برای بهینه سازی مدل استفاده کرد. رسیدن به بهینه جهانی حتمی است زیرا تابع هدف محدب است. گرادیان احتمال log به صورت زیر نشان داده می شود:

{\frac {\partial L(w)}{\partial w}}=\textstyle \sum _{i}\displaystyle \phi (x^{i},y^{i})-E_{p(y|x^{i};w)}\phi (x^{i},y)

جایی که $E_{p(y|x^{i};w)}$ امید ریاضی $p(y|x^{i};w)$ است.

روش فوق محاسبات کارآمدی را برای تعداد نسبی کوچک طبقه بندی فراهم می کند.

تضاد با مدل سازنده ویرایش

تضاد در رویکردها ویرایش

فرض کنیم مسئله ما $m$ برچسب کلاس با $n$ متغییر ویژگی دارد. $Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}$ این متغییر ها مجموعه آموزش هستند.

یک مدل سازنده احتمال مشترک $P(x,y)$ را می گیرد ، بطوریکه $x$ ورودی و $y$ برچسب است و ممکن ترین برچسب شناخته شده ${\widetilde {y}}\in Y$ را برای متغیر ناشناخته ${\widetilde {x}}$ با استفاده از قضیه بیز پیش بینی می کند.^[۲]

مدل‌های تمایزی، بر خلاف مدل‌های مولد ، اجازه تولید نمونه‌ها را از توزیع مشترک متغیرهای مشاهده شده و هدف نمی‌دهند. با این حال، برای کارهایی مانند طبقه‌بندی و رگرسیون که نیازی به توزیع مشترک ندارند، مدل‌های تمایزی می‌توانند عملکرد بهتری داشته باشند (تا حدی به این دلیل که متغیرهای کمتری برای محاسبه دارند). ^[۳] ^[۴] از سوی دیگر، مدل‌های مولد معمولاً در بیان وابستگی‌ها در تسک پیچیده یادگیری نسبت به مدل‌های تمایز منعطف‌تر هستند. علاوه بر این، بیشتر مدل‌های تماییزی ذاتاً تحت نظارت هستند و نمی‌توانند به راحتی از یادگیری بدون نظارت پشتیبانی کنند. جزئیات خاص برنامه در نهایت مناسب بودن انتخاب یک مدل تماییزی در مقابل مولد را مشخص می کند.

مدل های تماییزی و مدل های مولد نیز در معرفی احتمال پسین متفاوت هستند. ^[۵] برای حفظ کمترین هزینه مورد انتظار، باید طبقه‌بندی نادرست را به حداقل رساند. در مدل تماییزی، احتمالات پسین، $P(y|x)$ ، از یک مدل پارامتری استنباط می شود که در آن پارامترها از داده های آموزشی بدست می آیند. نقاط تخمین پارامترها از بیشینه سازی احتمال یا محاسبه توزیع بر روی پارامترها به دست می آید. از سوی دیگر، با توجه به اینکه مدل های مولد بر احتمال مشترک تمرکز می کنند، احتمال پسین کلاس $P(k)$ در قضیه بیز در نظر گرفته شده است که بصورت زیر تعریف می شود:

P(y|x)={\frac {p(x|y)p(y)}{\textstyle \sum _{i}p(x|i)p(i)\displaystyle }}={\frac {p(x|y)p(y)}{p(x)}}

. ^[۵]

مزایا و معایب در کاربرد ویرایش

در آزمایش‌های تکراری، رگرسیون لجستیک و نایو بیز برای مدل‌های مختلف در نوع طبقه‌بندی باینری اعمال می‌شوند، یادگیری تماییزی منجر به خطاهای مجانبی کمتر می‌شود، در حالی که یک مولد منجر به خطاهای مجانبی بالاتر سریع‌تر می‌شود. با این حال، در کار مشترک اولوسوی و بیشاپ، مقایسه تکنیک‌های مولد و متمایز برای تشخیص و طبقه‌بندی اشیاء ، بیان می‌کنند که گزاره فوق تنها زمانی درست است که مدل برای داده‌ها مناسب باشد (یعنی توزیع داده‌ها به درستی توسط مدل تولیدی مدل‌سازی شده باشد. ).

مزایا ویرایش

مزایای مهم استفاده از مدل سازی متمایز عبارتند از:

دقت بالاتر، که معمولا منجر به نتایج یادگیری بهتر می شود.
ورودی را ساده می کند و یک رویکرد مستقیم به $P(y|x)$ ارائه می دهد.
استفاده از منابع را بهینه می کند.
خطاهای مجانبی کمتری ایجاد می کند

در مقایسه با مزایای استفاده از مدل سازی مولد:

تمام داده‌ها را در نظر می‌گیرد، که می‌تواند منجر به پردازش کندتر به عنوان یک نقطه ضعف شود
به نمونه های آموزشی کمتری نیاز دارد
یک چارچوب انعطاف پذیر که به راحتی می تواند با سایر نیازهای برنامه همکاری کند

معایب ویرایش

روش آموزش معمولاً به چندین تکنیک بهینه سازی عددی نیاز دارد
به طور مشابه، طبق تعریف، مدل تمایز به ترکیبی از وظایف فرعی متعدد برای حل یک مشکل پیچیده دنیای واقعی نیاز دارد ^[۱]

بهینه سازی در برنامه ها ویرایش

از آنجایی که هم مزایا و هم معایب دو روش مدل‌سازی گفته شد، ترکیب هر دو رپش در عمل مدل‌سازی خوبی خواهد بود. به عنوان مثال، در مقاله ماراس A Joint Discriminative Generative Model for Model Deformable Construction and Classification ^[۶] او و همکارانش ترکیبی از دو مدل سازی را در طبقه بندی چهره مدل ها اعمال می کنند و دقت بالاتری نسبت به روش سنتی دریافت می کنند.

به طور مشابه، کلم ^[۷] ترکیب دو مدل‌ را برای طبقه‌بندی پیکسل‌ها در مقاله خود ترکیب روش‌های مولد و متمایز برای طبقه‌بندی پیکسل با یادگیری چند شرطی مطرح کرد.

در طول فرآیند استخراج ویژگی‌های متمایز قبل از خوشه‌بندی، تحلیل مؤلفه اصلی (PCA)، اگرچه معمولاً مورد استفاده قرار می‌گیرد، یک رویکرد لزوماً تمایز نیست. در مقابل، LDA تمایزی است. ^[۸] تجزیه و تحلیل تفکیک خطی (LDA)، یک روش کارآمد برای از بین بردن نقطه ضعفی که در بالا اشاره کردیم ارائه می دهد. همانطور که می دانیم، مدل تمایزی قبل از طبقه بندی نیاز به ترکیبی از وظایف فرعی متعدد دارد و LDA با کاهش ابعاد راه حل مناسبی را برای این مشکل ارائه می دهد.

انواع ویرایش

نمونه هایی از مدل های متمایز عبارتند از:

رگرسیون لجستیک ، نوعی رگرسیون خطی تعمیم یافته که برای پیش‌بینی خروجی‌های باینری یا طبقه‌ای (همچنین به عنوان طبقه‌بندی‌کننده حداکثر آنتروپی نیز شناخته می‌شود) استفاده می‌شود.
تقویت (متاالگوریتم)
فیلدهای تصادفی شرطی
رگرسیون خطی
جنگل های تصادفی

همچنین ببینید ویرایش

مدل مولد

منابع ویرایش

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ Memisevic, Roland (December 21, 2006). "An introduction to structured discriminative learning". Retrieved October 29, 2018.
↑ Ng, Andrew Y.; Jordan, Michael I. (2001). On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes.
↑ Singla, Parag; Domingos, Pedro (2005). "Discriminative Training of Markov Logic Networks". Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2. AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868–873. ISBN 978-1577352365.
↑ J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML, 2001.
↑ ^۵٫۰ ^۵٫۱ Ulusoy, Ilkay (May 2016). "Comparison of Generative and Discriminative Techniques for Object Detection and Classification" (PDF). Microsoft. Retrieved October 30, 2018.
↑ Marras, Ioannis (2017). "A Joint Discriminative Generative Model for Deformable Model Construction and Classification" (PDF). Retrieved 5 November 2018.
↑ Kelm, B. Michael. "Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning" (PDF). Archived from the original (PDF) on 17 July 2019. Retrieved 5 November 2018.
↑ Wang, Zhangyang (2015). "A Joint Optimization Framework of Sparse Coding and Discriminative Clustering" (PDF). Retrieved 5 November 2018.

[:1-1] ۱٫۰ ^۱٫۱ ^۱٫۲ Memisevic, Roland (December 21, 2006). "An introduction to structured discriminative learning". Retrieved October 29, 2018.

[:2-2] Ng, Andrew Y.; Jordan, Michael I. (2001). On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes.

[3] Singla, Parag; Domingos, Pedro (2005). "Discriminative Training of Markov Logic Networks". Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2. AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868–873. ISBN 978-1577352365.

[4] J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML, 2001.

[:3-5] ۵٫۰ ^۵٫۱ Ulusoy, Ilkay (May 2016). "Comparison of Generative and Discriminative Techniques for Object Detection and Classification" (PDF). Microsoft. Retrieved October 30, 2018.

[6] Marras, Ioannis (2017). "A Joint Discriminative Generative Model for Deformable Model Construction and Classification" (PDF). Retrieved 5 November 2018.

[7] Kelm, B. Michael. "Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning" (PDF). Archived from the original (PDF) on 17 July 2019. Retrieved 5 November 2018.

[8] Wang, Zhangyang (2015). "A Joint Optimization Framework of Sparse Coding and Discriminative Clustering" (PDF). Retrieved 5 November 2018.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]