رگرسیون لجستیک: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
وسط‌چین به فرمول‌ها اضافه شد
ویرایش به‌وسیلهٔ ابرابزار:
برچسب: پیوندبیرونی به ویکی‌پدیای فارسی
خط ۲۱:
{{پایان وسط‌چین}}
 
[[پرونده:Logistic-curve.svg|پیوند=https://fa.wikipedia.org/wiki/%D9%BE%D8%B1%D9%88%D9%86%D8%AF%D9%87پرونده:Logistic-curve.svg|جایگزین=|بندانگشتی|320x320پیکسل|تابع لجستیک استاندارد]]
رگرسیون لجستیک را می‌توان توسط تابع لجستیک تعریف کرد. دامنه این تابع اعداد حقیقی هستند و برد این تابع بین صفر و یک می‌باشد.<ref name="Hosmer"><cite class="citation book">Hosmer, David W. ; Lemeshow, Stanley (2000). ''Applied Logistic Regression'' (2nd ed.). Wiley. [[International Standard Book Number|ISBN]]&nbsp;[[Special:BookSources/978-0-471-35632-5|<bdi>978-0-471-35632-5</bdi>]].</cite> <sup class="noprint Inline-Template " style="white-space:nowrap;">&#x5B;''[[wikipedia:Citing_sources|<span title="This citation requires a reference to the specific page or range of pages in which the material appears. (May 2012)">page&nbsp;needed</span>]]''&#x5D;</sup></ref> این تابع با <math>\sigma:\mathbb R\rightarrow (0,1)</math> نمایش داده می‌شود و به نحو پایین محاسبه می‌شود:<ref name="Hosmer" />
{{وسط‌چین}}
<math>\sigma (t) = \frac{e^t}{e^t+1} = \frac{1}{1+e^{-t}}</math>
{{پایان وسط‌چین}}
با احتساب تابع لجستیک، رگرسیون لجستیک را می‌توان به شکل پایین بازنویسی کرد:<ref name="Hosmer" />
{{وسط‌چین}}
<math>\Pr(y_i = 1|\vec{x_i};\vec{\beta}) = \frac{1}{1+e^{-\left(\beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}\right)}} = \sigma\left(\beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}\right)</math>
خط ۴۷:
</math>
{{پایان وسط‌چین}}
 
== تنظیم مدل (Regularization) ==
پیچیدگی مدل‌های پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر [[بیش‌برازش]] (Overfitting) برای مدل بیشتر است.<ref>{{Cite journal|last=Bühlmann|first=Peter|last2=van de Geer|first2=Sara|date=2011|title=Statistics for High-Dimensional Data|url=https://link.springer.com/book/10.1007/978-3-642-20192-9|journal=Springer Series in Statistics|language=en-gb|doi=10.1007/978-3-642-20192-9|issn=0172-7397}}</ref> پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل، فرایند یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از [[بیش‌برازش]] در مدل‌های خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به [[تابع هزینه]] اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. [[تابع هزینه]] را در رگرسیون لجستیک با منفی لگاریتم درست‌نمایی تعریف می‌کنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بیانجامد. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدل‌های خطی روش‌های <math>L_1</math> و <math>L_2</math> هستند.<ref>{{یادکرد کتاب|نشانی=https://link.springer.com/chapter/10.1007/978-3-642-20192-9_8|عنوان=Theory for ℓ1/ℓ2-penalty procedures|نام خانوادگی=Bühlmann|نام=Peter|نام خانوادگی۲=van de Geer|نام۲=Sara|تاریخ=2011|ناشر=Springer Berlin Heidelberg|شابک=9783642201912|مکان=Berlin, Heidelberg|صفحات=249–291|زبان=en|doi=10.1007/978-3-642-20192-9_8}}</ref> در روش <math>L_1</math> ضریبی از نُرمِ <math>L_1</math> به [[تابع هزینه]] اضافه می‌شود و در روش <math>L_2</math> ضریبی از نُرمِ <math>L_2</math> که همان نُرمِ اقلیدسی است به [[تابع هزینه]] اضافه می‌شود.