مثالهای حداقل مربعات منظمشده
This article should be summarized in another article and a link provided from there to here using the {{Main}} template. (November 2020) |
حداقل مربعات منظم (RLS) خانواده ای از روش ها برای حل مسئله حداقل مربعات طوری که از منظم سازی برای محدود کردن بیشتر راه حل استفاده می شود.
RLS به دو دلیل اصلی استفاده می شود. اولین مورد زمانی مطرح می شود که تعداد متغیرها در سیستم خطی از تعداد مشاهدات بیشتر شود. در چنین تنظیماتی، مسئله حداقل مربعات معمولی نامناسب است و در نتیجه برازش آن غیرممکن است زیرا مسئله بهینه سازی مرتبط دارای راه حل های بی نهایت زیادی است. RLS اجازه می دهد تا محدودیت های بیشتری را معرفی کند که به طور منحصر به فرد راه حل را تعیین می کند.
دلیل دوم استفاده از RLS زمانی به وجود می آید که مدل آموخته شده از تعمیم ضعیف رنج می برد. RLS می تواند در چنین مواردی برای بهبود تعمیم پذیری مدل با محدود کردن آن در زمان آموزش استفاده شود. این محدودیت میتواند راهحل را به نحوی «پراکنده» کند یا دانش قبلی را در مورد مشکل منعکس کند، مانند اطلاعات مربوط به همبستگی بین ویژگیها. با نشان دادن این که روشهای RLS غالباً معادل راهحلهای حداقل مربعات هستند، میتوان به درک بیزی از این موضوع دست یافت.
فرمولاسیون عمومی
ویرایشیک نوع یادگیری ارائه شده توسط یک فضای احتمالاتی را در نظر بگیرید ، . فرض کنید مجموعه آموزشی از جفت متغیر دوبهدو مستقل همتوزیع نسبت به را نشان می دهد. فرض کنید تابع ضرر باشد، را به عنوان فضای توابع به گونه ای که ریسک مورد انتظار به صورت زیر باشد تعریف می کنیم:
هدف اصلی به حداقل رساندن ریسک مورد انتظار است:
از آنجایی که مشکل بهطور کاملا دقیق قابل حل نیست، نیاز داریم تا چگونگی اندازهگیری کیفیت یک راهحل را بررسی کنیم. یک الگوریتم یادگیری خوب باید یک برآوردگر با ریسک کمی ارائه دهد.
به عنوان توزیع توام، توزیع به طور معمول ناشناخته است، ریسک تجربی درنظر گرفته شده است. برای حداقل مربعات منظم، مربع تابع ضرر به صورت زیر معرفی شده است:
با این حال، اگر توابع از یک فضای نسبتاً نامحدود باشند، مانند مجموعه ای از توابع مربعی انتگرالپذیر در ، این رویکرد ممکن است باعث بیشبرازش مدل شود و منجر به تعمیم ضعیف شود. بنابراین، باید به نوعی پیچیدگی تابع را محدود یا جریمه کند. در کمترین مربعات منظمشده، این کار با انتخاب توابع از فضای بازتولید هسته هیلبرت (RKHS) و همچنین با افزودن یک عبارت منظمسازی متناسب با نرم تابع در به تابع هدف انجام می شود:
- .
رگرسیون ریج (یا منظم سازی تیخونوف)
ویرایشیکی از گزینه های رایج برای تابع پناتی ، نرم درجه 2 می باشد.
متداول ترین نام ها برای این امر منظم سازی تیخونوف و رگرسیون ریدج نامیده می شود. این یک فرم برای به شکل زیر معرفی می کند:
نام رگرسیون ریج به این واقعیت اشاره دارد که عبارت مقدار های مثبتی در راستای قطر "ridge" ماتریس کووارینانس ماتریس اضافه می کند.
زمانی که یعنی در مورد حداقل مربعات معمولی، شرط باعث میشود که ماتریس کوواریانس نمونه رتبه کامل نداشته باشد و بنابراین نمی توان آن را معکوس کرد تا یک راه حل منحصر به فرد به دست آید. به همین دلیل است که در صورتی که می تواند بی نهایت راه حل برای مسئله حداقل مربعات معمولی وجود داشته باشد. با این حال، زمانی که ، یعنی زمانی که از رگرسیون ریدج استفاده می شود، اضافه شدن به ماتریس کوواریانس نمونه تضمین میکند که همه مقادیر ویژه آن بزرگتر مساوی 0 خواهند بود، به بیان دیگر وارون پذیر خواهد شد و جواب یکتا خواهد شد.
در مقایسه با حداقل مربعات معمولی، رگرسیون ریج بدون تورش نیست. برای کاهش واریانس و میانگین مربعات خطا، مقداری تورش می پذیرد.
رگرسیون لسو
ویرایشحداقل انتخاب مطلق و تابع لسو یک انتخاب دیگر می باشد. در رگرسیون لسو، تابع پنالتی لسو به صورت نرم درجه 1 انتخاب می شود.
توجه داشته باشید که تابع پنالتی لسو محدب است اما کاملا محدب نیست. برخلاف منظمسازی تیخونوف، این طرح راهحلی با فرم بسته مناسب ندارد، در عوض راهحل معمولاً با استفاده از برنامهنویسی درجه دوم یا روشهای بهینهسازی محدب عمومیتر و همچنین با الگوریتمهای خاص مانند الگوریتم رگرسیون حداقل زاویه، پیدا میشود.
تفاوت مهم بین رگرسیون لسو و منظم سازی تیخونوف این است که رگرسیون لسو در مقابل حالت دیگر مقادیر بیشتری از را مجبور میکند تا برابر 0 باشد. در مقابل در حالی که منظم سازی تیخونوف مقادیر را مجبور میکند تا مقادیر کوچکی داشته باشند و درنتیجه مقادیر کمی از آنها را مجبور به صفر بودن میکند. بنابراین منظمسازی LASSO در مواردی است که ما انتظار داریم تعداد ورودی های غیر صفر از ، کم باشد مناسب تر از منظمسازی تیخونوف میباشد. زمانی که ما انتظار داریم که ورودیهای به صورت کلی کوچک باشند و نه لزوما صفر، منظمسازی تیخونوف مناسبتر است. اینکه کدام یک از این سازوکارها مناسبتر است به مجموعه داده های خاص موجود بستگی دارد.
علاوه بر نحوهی انتخاب ویژگی که در بالا توضیح داده شد، لسو دارای محدودیت هایی است. رگرسیون ریج دقت بهتری در صورتی که ارائه می دهد(برای متغیرهای بسیار همبسته )[۱]. در حالت دیگر ، لسو حداکثر متغیر انتخاب می کند. علاوه بر این لسو تمایل دارد برخی از متغیرهای دلخواه را از گروه نمونههای بسیار همبسته انتخاب کند، بنابراین هیچ اثر گروهبندیای وجود ندارد.
جریمه ℓ 0
ویرایشافراطی ترین راه برای اعمال پراکندگی این است که بگوییم قدرمطلق ضرایب مهم نیست؛ بلکه تنها چیزی که پیچیدگی را تعیین می کند تعداد ورودی های غیر صفر است. این مربوط به تنظیم است. این متناظر این میباشد که را برابر نرم norm، قرار دهیم. این تابع منظمسازی در حالی که برای پراکندگی که تضمین می کند جذاب است، اما حل آن بسیار دشوار است زیرا انجام این کار مستلزم بهینه سازی تابعی است که حتی محدب ضعیف هم نیست. رگرسیون لسو حداقل سادهسازی جریمه میباشد که منجر به یک مسئله بهینه سازی محدب ضعیف می شود.
الستیکنت
ویرایشبرای هر و غیر منفی، هدف به صورت زیر میباشد:
فرض کنید ، سپس راه حل مساله کمینهسازی به صورت زیر است:
- برای برخی .
عبارت را به عنوان یک تابع جریمه الاستیکنت درنظر بگیرید.
زمانی که α=1 باشد الستیک نت همان ریدج رگرسیون می شود و زمانی که باشد همان لسو رگرسیون می شود. تابع جریمه الاستیکنت در نقطه صفر مشتق اول ندارد و بهطور اکید محدب میشود. ,برای ویژگیهای هر دو رگرسیون لسو و ریدج را دارد.
یکی از ویژگی های اصلی الستیکنت توانایی انتخاب گروههایی از متغیرهای همبسته می باشد. تفاوت بین بردارهای وزنی برای دو نمونهی و از رابطه زیر بدست می آید:
- ، طوریکه . [۲]
اگر و همبستگی بالایی داشتهباشند یعنی ( )، فاصله بین بردارهای وزنی بسیار کم است. در مورد نمونه های همبستگی منفی ( ) نمونه های را میتوان درنظر گرفت.
فهرست جزئی از روش های RLS
ویرایشلیستی از انتخاب های ممکن تابع منظم سازی در ادامه آمده است.
Name | Regularization function | Corresponding prior | Methods for solving |
---|---|---|---|
Tikhonov regularization | Normal | Closed form | |
Lasso regression | Laplace | Proximal gradient descent, least angle regression | |
penalization | – | Forward selection, Backward elimination, use of priors such as spike and slab | |
Elastic nets | Normal and Laplace mixture | Proximal gradient descent | |
Total variation regularization | – | Split–Bregman method, among others |
همچنین ببینید
ویرایش- Least squares
- Regularization in mathematics.
- Generalization error, one of the reasons regularization is used.
- Tikhonov regularization
- Lasso regression
- Elastic net regularization
- Least-angle regression
منابع
ویرایش- ↑ Tibshirani Robert (1996). "Regression shrinkage and selection via the lasso" (PDF). Journal of the Royal Statistical Society, Series B. 58: pp. 266–288.
- ↑ Hui, Zou; Hastie, Trevor (2003). "Regularization and Variable Selection via the Elastic Net" (PDF). Journal of the Royal Statistical Society, Series B. 67 (2): pp. 301–320.