رگرسیون لجستیک: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۳۴:
 
== تنظیم مدل (Regularization) ==
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر [[بیش‌برازش]] (Overfitting) برای مدل بیشتر است.<ref>{{Cite journal|last=Bühlmann|first=Peter|last2=van de Geer|first2=Sara|date=2011|title=Statistics for High-Dimensional Data|url=https://link.springer.com/book/10.1007/978-3-642-20192-9|journal=Springer Series in Statistics|language=en-gb|doi=10.1007/978-3-642-20192-9|issn=0172-7397}}</ref> پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از [[بیش‌برازش]] در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به [[تابع ضررهزینه]] اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. [[تابع ضررهزینه]] را در رگرسیون لجستیک با منفی لگاریتم درست‌نمایی تعریف می‌کنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بیانجامد. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای <math>L1</math> و <math>L2</math> هستند.<ref>{{یادکرد کتاب|نشانی=https://link.springer.com/chapter/10.1007/978-3-642-20192-9_8|عنوان=Theory for ℓ1/ℓ2-penalty procedures|نام خانوادگی=Bühlmann|نام=Peter|نام خانوادگی۲=van de Geer|نام۲=Sara|تاریخ=2011|ناشر=Springer Berlin Heidelberg|شابک=9783642201912|مکان=Berlin, Heidelberg|صفحات=249–291|زبان=en|doi=10.1007/978-3-642-20192-9_8}}</ref> در روش <math>L1</math> ضریبی از نُرمِ <math>L1</math> به [[تابع ضررهزینه]] اضافه می‌شود و در روش <math>L2</math> ضریبی از نُرمِ <math>L2</math> که همان نُرمِ اقلیدسی است به [[تابع ضررهزینه]] اضافه می‌شود.
 
در تنظیم مدل به روش <math>L1</math> [[تابع ضررهزینه]] را به این شکل تغییر می‌دهیم<ref>{{یادکرد کتاب|نشانی=https://www.springer.com/us/book/9780387310732|عنوان=Pattern Recognition and Machine Learning|نام خانوادگی=Bishop|نام=Christopher|ناشر=Christopher|سال=2006|شابک=9780387310732|مکان=New York|صفحات=|زبان=en}}</ref>:
 
<math> L_r(D, \vec{\beta}) = -L(D, \vec{\beta}) + \lambda ||\vec{\beta}||_1= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m |\beta_k|</math>
خط ۴۲:
این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت (Sparse) شود.<ref>{{Cite journal|last=Natarajan|first=B. K.|date=1995|title=Sparse Approximate Solutions to Linear Systems|url=https://epubs.siam.org/doi/10.1137/S0097539792240406|journal=SIAM Journal on Computing|language=en-US|volume=24|issue=2|pages=227–234|doi=10.1137/s0097539792240406|issn=0097-5397|via=}}</ref>
 
در تنظیم مدل به روش <math>L2</math> [[تابع ضررهزینه]] را به این شکل تغییر می‌دهیم:
 
<math> L_r(D, \vec{\beta}) = L(D, \vec{\beta}) + \lambda ||\vec{\beta}||^2_2= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m \beta_k^2</math>