رگرسیون لجستیک: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
بدون خلاصۀ ویرایش برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
||
خط ۳۴:
== تنظیم مدل (Regularization) ==
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر [[بیشبرازش]] (Overfitting) برای مدل بیشتر است.<ref>{{Cite journal|last=Bühlmann|first=Peter|last2=van de Geer|first2=Sara|date=2011|title=Statistics for High-Dimensional Data|url=https://link.springer.com/book/10.1007/978-3-642-20192-9|journal=Springer Series in Statistics|language=en-gb|doi=10.1007/978-3-642-20192-9|issn=0172-7397}}</ref> پدیده بیشبرازش زمانی رخ میدهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ میکند و در عمل یادگیری به خوبی انجام نمیشود. برای جلوگیری از [[بیشبرازش]] در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمهای به [[تابع
در تنظیم مدل به روش <math>L1</math> [[تابع
<math> L_r(D, \vec{\beta}) = -L(D, \vec{\beta}) + \lambda ||\vec{\beta}||_1= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m |\beta_k|</math>
خط ۴۲:
این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث میشود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت (Sparse) شود.<ref>{{Cite journal|last=Natarajan|first=B. K.|date=1995|title=Sparse Approximate Solutions to Linear Systems|url=https://epubs.siam.org/doi/10.1137/S0097539792240406|journal=SIAM Journal on Computing|language=en-US|volume=24|issue=2|pages=227–234|doi=10.1137/s0097539792240406|issn=0097-5397|via=}}</ref>
در تنظیم مدل به روش <math>L2</math> [[تابع
<math> L_r(D, \vec{\beta}) = L(D, \vec{\beta}) + \lambda ||\vec{\beta}||^2_2= - \sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x_{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x_{i}}; \vec{\beta}) + \lambda\sum_{k=0}^m \beta_k^2</math>
|