رگرسیون لجستیک: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۲۵:
\sum_{i=1}^{n} y_i \times \log Pr(y_i=1|\vec{x^{i}}; \vec{\beta}) + (1-y_i) \log Pr(y_i=0|\vec{x^{i}}; \vec{\beta}) </math>
 
اگر برای داده <math>i</math> ام <math>y_i = 1</math> باشد، هدف افزایش<math>\Pr\left(y_i = 1|\vec{x^i};\vec{\beta}\right)</math> است و اگر <math>y_i</math> صفر باشد هدف افرایش مقدار <math>\Pr\left(y_i = 0|\vec{x^i};\vec{\beta}\right)</math> است. ازینرو از فرمول <math>Pr(y_i=1|\vec{x^{i}}; \vec{\beta})^{y_i} \times Pr(y_i=0|\vec{x^{i}}; \vec{\beta})^{1-y_i} </math> استفاده می کنیم که اگر <math>y_i = 1</math>باشد، فرمول به ما <math>\Pr\left(y_i = 1|\vec{x^i};\vec{\beta}\right)</math> را بدهد و اگر <math>y_i = 0</math> بود به ما <math>\Pr\left(y_i = 0|\vec{x^i};\vec{\beta}\right)</math> را پس بدهد.
 
حال برای بدست آوردن پارامتر بهینه باید <math>\vec{\beta}</math> یی پیدا کنیم که مقدار <math>L(D, \vec{\beta})</math> را بیشینه کند. از آنجا که این تابع نسبت به <math>\vec{\beta}</math> مقعر است حتما یک بیشینه مطلق دارد. برای پیدا کردن جواب می توان از روش گرادیان افزایشی از نوع تصادفی اش استفاده کرد (Stochastic Gradient Ascent).