رگرسیون لجستیک: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
جزبدون خلاصۀ ویرایش برچسب: متن دارای ویکیمتن نامتناظر |
جز ویرایش بهوسیلهٔ ابرابزار: برچسب: متن دارای ویکیمتن نامتناظر |
||
خط ۳۵:
== تنظیم مدل (Regularization) ==
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر [[بیشبرازش]] (Overfitting) برای مدل بیشتر است.<ref>{{Cite journal|last=Bühlmann|first=Peter|last2=van de Geer|first2=Sara|date=2011|title=Statistics for High-Dimensional Data|url=https://link.springer.com/book/10.1007/978-3-642-20192-9|journal=Springer Series in Statistics|language=en-gb|doi=10.1007/978-3-642-20192-9|issn=0172-7397}}</ref> پدیده بیشبرازش زمانی رخ میدهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل،
در تنظیم مدل به روش <math>L_1</math> [[تابع هزینه]] را به این شکل تغییر میدهیم:<ref>{{یادکرد کتاب|نشانی=https://www.springer.com/us/book/9780387310732|عنوان=Pattern Recognition and Machine Learning|نام خانوادگی=Bishop|نام=Christopher|ناشر=Christopher|سال=2006|شابک=9780387310732|مکان=New York|صفحات=|زبان=en}}</ref>
<math> L_r(D, \vec{\beta}) = -L(D, \vec{\beta}) + \lambda ||\vec{\beta}||_1= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m |\beta_k|</math>
خط ۵۰:
=== تفسیر احتمالی تنظیم مدل ===
اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید.<ref>{{یادکرد کتاب|نشانی=https://books.google.com/books?id=kOXDtAEACAAJ&dq=pattern+recognition+and+machine+learning&hl=en&sa=X&ved=0ahUKEwiNrZ7O1tveAhWtmeAKHRTvAeAQ6AEIKjAA|عنوان=Pattern Recognition and Machine Learning|نام خانوادگی=Bishop|نام=Christopher M|تاریخ=2016-08-23|ناشر=Springer New York|سال=2016|شابک=9781493938438|مکان=New York|صفحات=30|زبان=English}}</ref> اگر مجموعه داده را با <math>D</math> نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با <math>\vec{\beta}</math> ، احتمال پسین <math>Pr\left(\vec{\beta}\,|\,D\right)</math> ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی <math>Pr\left(D\,|\,\vec{\beta}\right)</math> و احتمال پیشین یعنی <math>Pr\left(\vec{\beta}\right)</math>
<math>Pr\left(\vec{\beta}\,|\,D\right) = \frac{Pr\left(D\,|\,\vec{\beta}\right)\times Pr\left(\vec{\beta}\right)}{Pr\left(D\right)}</math>
خط ۵۹:
argmax_{\vec{\beta}} Pr\left(D\,|\,\vec{\beta}\right)\times Pr\left(\vec{\beta}\right)</math>
معادله خط پیشین
<math>argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) =
argmax_{\vec{\beta}} \,\,
\log \prod_{i=1}^{n}Pr(y_i|\vec{x_i}\,\,;\vec{\beta}) Pr\left(\vec{\beta}\right) =
argmax_{\vec{\beta}} \,\,
\log
\left(\prod_{i=1}^{n} Pr(y_i=1|\vec{x_{i}}; \vec{\beta})^{y_i} \times Pr(y_i=0|\vec{x_{i}}; \vec{\beta})^{1-y_i}
\frac{1}{\sqrt{2\pi}\tau}exp\left(\frac{-||\vec{\beta}||^2}{2\tau}\right)\right)</math>
با ساده کردن این معادله به نتیجه پایین میرسیم:
<math> argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) = argmax_{\vec{\beta}} \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) - \frac{1}{2\tau^2}||\vec{\beta}||^2 -\log \sqrt{2\pi}\tau</math>
خط ۷۶:
با تغییر علامت معادله، بیشینهسازی را به کمینهسازی تغییر میدهیم، <math> \lambda</math> در این معادله همان <math> \frac{1}{2\tau^2}</math> است:
<math> argmax_{\vec{\beta}} \,\, \log Pr\left(D\,|\,\vec{\beta}\right) = argmin_{\vec{\beta}} -\left(\sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta})\right) + \lambda||\vec{\beta}||^2 </math>
حال اگر توزیع پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم <math>L_1</math> خواهیم رسید.<ref name=":13">{{Cite journal|last=Robert|first=Christian|date=2014-04-03|title=Machine Learning, a Probabilistic Perspective|url=https://www.tandfonline.com/doi/full/10.1080/09332480.2014.914768|journal=CHANCE|language=en|volume=27|issue=2|pages=62–63|doi=10.1080/09332480.2014.914768|issn=0933-2480}}</ref>
از آنجا که میانگین هر دو توزیع پیشین صفر است، پیشفرض تخمین پارامتر بر این بنا
== جستارهای وابسته ==
خط ۹۰:
* [[شبکه عصبی مصنوعی]]
* [[کاوشهای ماشینی در دادهها]]
* [[رگرسیون خطی]]
* [[رگرسیون پواسون]]
== منابع ==
{{پانویس|۲}}
* [[:en:Logistic regression|ویکیپدیای انگلیسی]]
|