رگرسیون لجستیک: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Rezesmal (بحث | مشارکت‌ها)
جزبدون خلاصۀ ویرایش
برچسب: متن دارای ویکی‌متن نامتناظر
جز ویرایش به‌وسیلهٔ ابرابزار:
برچسب: متن دارای ویکی‌متن نامتناظر
خط ۳۵:
 
== تنظیم مدل (Regularization) ==
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر [[بیش‌برازش]] (Overfitting) برای مدل بیشتر است.<ref>{{Cite journal|last=Bühlmann|first=Peter|last2=van de Geer|first2=Sara|date=2011|title=Statistics for High-Dimensional Data|url=https://link.springer.com/book/10.1007/978-3-642-20192-9|journal=Springer Series in Statistics|language=en-gb|doi=10.1007/978-3-642-20192-9|issn=0172-7397}}</ref> پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل، فرآیندفرایند یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از [[بیش‌برازش]] در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به [[تابع هزینه]] اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. [[تابع هزینه]] را در رگرسیون لجستیک با منفی لگاریتم درست‌نمایی تعریف می‌کنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بیانجامد. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای <math>L_1</math> و <math>L_2</math> هستند.<ref>{{یادکرد کتاب|نشانی=https://link.springer.com/chapter/10.1007/978-3-642-20192-9_8|عنوان=Theory for ℓ1/ℓ2-penalty procedures|نام خانوادگی=Bühlmann|نام=Peter|نام خانوادگی۲=van de Geer|نام۲=Sara|تاریخ=2011|ناشر=Springer Berlin Heidelberg|شابک=9783642201912|مکان=Berlin, Heidelberg|صفحات=249–291|زبان=en|doi=10.1007/978-3-642-20192-9_8}}</ref> در روش <math>L_1</math> ضریبی از نُرمِ <math>L_1</math> به [[تابع هزینه]] اضافه می‌شود و در روش <math>L_2</math> ضریبی از نُرمِ <math>L_2</math> که همان نُرمِ اقلیدسی است به [[تابع هزینه]] اضافه می‌شود.
 
در تنظیم مدل به روش <math>L_1</math> [[تابع هزینه]] را به این شکل تغییر می‌دهیم:<ref>{{یادکرد کتاب|نشانی=https://www.springer.com/us/book/9780387310732|عنوان=Pattern Recognition and Machine Learning|نام خانوادگی=Bishop|نام=Christopher|ناشر=Christopher|سال=2006|شابک=9780387310732|مکان=New York|صفحات=|زبان=en}}</ref>:
 
<math> L_r(D, \vec{\beta}) = -L(D, \vec{\beta}) + \lambda ||\vec{\beta}||_1= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m |\beta_k|</math>
خط ۵۰:
 
=== تفسیر احتمالی تنظیم مدل ===
اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید.<ref>{{یادکرد کتاب|نشانی=https://books.google.com/books?id=kOXDtAEACAAJ&dq=pattern+recognition+and+machine+learning&hl=en&sa=X&ved=0ahUKEwiNrZ7O1tveAhWtmeAKHRTvAeAQ6AEIKjAA|عنوان=Pattern Recognition and Machine Learning|نام خانوادگی=Bishop|نام=Christopher M|تاریخ=2016-08-23|ناشر=Springer New York|سال=2016|شابک=9781493938438|مکان=New York|صفحات=30|زبان=English}}</ref> اگر مجموعه داده را با <math>D</math> نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با <math>\vec{\beta}</math> ، احتمال پسین <math>Pr\left(\vec{\beta}\,|\,D\right)</math> ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی <math>Pr\left(D\,|\,\vec{\beta}\right)</math> و احتمال پیشین یعنی <math>Pr\left(\vec{\beta}\right)</math> :<ref name=":1">{{Cite journal|last=Robert|first=Christian|date=2014-04-03|title=Machine Learning, a Probabilistic Perspective|url=https://www.tandfonline.com/doi/full/10.1080/09332480.2014.914768|journal=CHANCE|language=en|volume=27|issue=2|pages=62–63|doi=10.1080/09332480.2014.914768|issn=0933-2480}}</ref>:
 
<math>Pr\left(\vec{\beta}\,|\,D\right) = \frac{Pr\left(D\,|\,\vec{\beta}\right)\times Pr\left(\vec{\beta}\right)}{Pr\left(D\right)}</math>
خط ۵۹:
argmax_{\vec{\beta}} Pr\left(D\,|\,\vec{\beta}\right)\times Pr\left(\vec{\beta}\right)</math>
 
معادله خط پیشین نشان‌نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس <math>\tau^2I</math> در نظر بگیریم به معادله پایین می رسیم می‌رسیم:<ref name=":12">{{Cite journal|last=Robert|first=Christian|date=2014-04-03|title=Machine Learning, a Probabilistic Perspective|url=https://www.tandfonline.com/doi/full/10.1080/09332480.2014.914768|journal=CHANCE|language=en|volume=27|issue=2|pages=62–63|doi=10.1080/09332480.2014.914768|issn=0933-2480}}</ref>:‌
 
<math>argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) =
argmax_{\vec{\beta}} \,\,
\log \prod_{i=1}^{n}Pr(y_i|\vec{x_i}\,\,;\vec{\beta}) Pr\left(\vec{\beta}\right) =
argmax_{\vec{\beta}} \,\,
\log
\left(\prod_{i=1}^{n} Pr(y_i=1|\vec{x_{i}}; \vec{\beta})^{y_i} \times Pr(y_i=0|\vec{x_{i}}; \vec{\beta})^{1-y_i}
 
\frac{1}{\sqrt{2\pi}\tau}exp\left(\frac{-||\vec{\beta}||^2}{2\tau}\right)\right)</math>
 
با ساده کردن این معادله به نتیجه پایین می‌رسیم:
 
<math> argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) = argmax_{\vec{\beta}} \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) - \frac{1}{2\tau^2}||\vec{\beta}||^2 -\log \sqrt{2\pi}\tau</math>
خط ۷۶:
با تغییر علامت معادله، بیشینه‌سازی را به کمینه‌سازی تغییر می‌دهیم، <math> \lambda</math> در این معادله همان <math> \frac{1}{2\tau^2}</math> است:
 
<math> argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) = argmin_{\vec{\beta}} -\left(\sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta})\right) + \lambda||\vec{\beta}||^2 </math>
 
همانطورهمان‌طور که دیدیم جواب همان تنظیم مدل با نرم <math>L_2</math> است.
 
حال اگر توزیع پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم <math>L_1</math> خواهیم رسید.<ref name=":13">{{Cite journal|last=Robert|first=Christian|date=2014-04-03|title=Machine Learning, a Probabilistic Perspective|url=https://www.tandfonline.com/doi/full/10.1080/09332480.2014.914768|journal=CHANCE|language=en|volume=27|issue=2|pages=62–63|doi=10.1080/09332480.2014.914768|issn=0933-2480}}</ref>
 
از آنجا که میانگین هر دو توزیع پیشین صفر است، پیش‌فرض تخمین پارامتر بر این بنا شده استشده‌است که اندازه پارامتر مورد نظر کوچک و به صفر نزدیک باشد و این پیش‌فرض با روند تنظیم مدل همخوانی دارد.<ref name=":13" />
 
== جستارهای وابسته ==
خط ۹۰:
* [[شبکه عصبی مصنوعی]]
* [[کاوش‌های ماشینی در داده‌ها]]
* [[رگرسیون خطی]]
* [[رگرسیون پواسون]]
 
== منابع ==
{{پانویس}}
* [[:en:Logistic regression|ویکی‌پدیای انگلیسی]]