مثال‌های حداقل مربعات منظم‌شده

حداقل مربعات منظم (RLS) خانواده ای از روش ها برای حل مسئله حداقل مربعات طوری که از منظم سازی برای محدود کردن بیشتر راه حل استفاده می شود.

RLS به دو دلیل اصلی استفاده می شود. اولین مورد زمانی مطرح می شود که تعداد متغیرها در سیستم خطی از تعداد مشاهدات بیشتر شود. در چنین تنظیماتی، مسئله حداقل مربعات معمولی نامناسب است و در نتیجه برازش آن غیرممکن است زیرا مسئله بهینه سازی مرتبط دارای راه حل های بی نهایت زیادی است. RLS اجازه می دهد تا محدودیت های بیشتری را معرفی کند که به طور منحصر به فرد راه حل را تعیین می کند.

دلیل دوم استفاده از RLS زمانی به وجود می آید که مدل آموخته شده از تعمیم ضعیف رنج می برد. RLS می تواند در چنین مواردی برای بهبود تعمیم پذیری مدل با محدود کردن آن در زمان آموزش استفاده شود. این محدودیت می‌تواند راه‌حل را به نحوی «پراکنده» کند یا دانش قبلی را در مورد مشکل منعکس کند، مانند اطلاعات مربوط به همبستگی بین ویژگی‌ها. با نشان دادن این که روش‌های RLS غالباً معادل راه‌حل‌های حداقل مربعات هستند، می‌توان به درک بیزی از این موضوع دست یافت.

فرمولاسیون عمومی

یک نوع یادگیری ارائه شده توسط یک فضای احتمالاتی را در نظر بگیرید $(X\times Y,\rho (X,Y))$ ، $Y\in R$ . فرض کنید $S=\{x_{i},y_{i}\}_{i=1}^{n}$ مجموعه آموزشی از $n$ جفت متغیر دوبه‌دو مستقل هم‌توزیع نسبت به $\rho$ را نشان می دهد. فرض کنید $V:Y\times R\rightarrow [0;\infty )$ تابع ضرر باشد، $F$ را به عنوان فضای توابع به گونه ای که ریسک مورد انتظار به صورت زیر باشد تعریف می کنیم:

\varepsilon (f)=\int V(y,f(x))\,d\rho (x,y)

هدف اصلی به حداقل رساندن ریسک مورد انتظار است:

\inf _{f\in F}\varepsilon (f)

از آنجایی که مشکل به‌طور کاملا دقیق قابل حل نیست، نیاز داریم تا چگونگی اندازه‌گیری کیفیت یک راه‌حل را بررسی کنیم. یک الگوریتم یادگیری خوب باید یک برآوردگر با ریسک کمی ارائه دهد.

به عنوان توزیع توام، توزیع $\rho$ به طور معمول ناشناخته است، ریسک تجربی درنظر گرفته شده است. برای حداقل مربعات منظم، مربع تابع ضرر به صورت زیر معرفی شده است:

\varepsilon (f)={\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},f(x_{i}))={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}

با این حال، اگر توابع از یک فضای نسبتاً نامحدود باشند، مانند مجموعه ای از توابع مربعی انتگرال‌پذیر در $X$ ، این رویکرد ممکن است باعث بیش‌برازش مدل شود و منجر به تعمیم ضعیف شود. بنابراین، باید به نوعی پیچیدگی تابع $f$ را محدود یا جریمه کند. در کمترین مربعات منظم‌شده، این کار با انتخاب توابع از فضای بازتولید هسته هیلبرت ${\mathcal {H}}$ (RKHS) و همچنین با افزودن یک عبارت منظم‌سازی متناسب با نرم تابع در ${\mathcal {H}}$ به تابع هدف انجام می شود:

\inf _{f\in F}\varepsilon (f)+\lambda R(f),\lambda >0

.

رگرسیون ریج (یا منظم سازی تیخونوف)

یکی از گزینه های رایج برای تابع پناتی $R$ ، نرم درجه 2 می باشد.

R(w)=\sum _{j=1}^{d}w_{j}^{2}

{\frac {1}{n}}\|Y-\operatorname {X} w\|_{2}^{2}+\lambda \sum _{j=1}^{d}|w_{j}|^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}

متداول ترین نام ها برای این امر منظم سازی تیخونوف و رگرسیون ریدج نامیده می شود. این یک فرم برای $w$ به شکل زیر معرفی می کند:

w=(X^{T}X+\lambda I)^{-1}X^{T}Y

نام رگرسیون ریج به این واقعیت اشاره دارد که عبارت $\lambda I$ مقدار های مثبتی در راستای قطر "ridge" ماتریس کووارینانس ماتریس $X^{T}X$ اضافه می کند.

زمانی که $\lambda =0$ یعنی در مورد حداقل مربعات معمولی، شرط $d>n$ باعث میشود که ماتریس کوواریانس نمونه رتبه کامل نداشته باشد و بنابراین نمی توان آن را معکوس کرد تا یک راه حل منحصر به فرد به دست آید. به همین دلیل است که در صورتی که $d>n$ می تواند بی نهایت راه حل برای مسئله حداقل مربعات معمولی وجود داشته باشد. با این حال، زمانی که $\lambda >0$ ، یعنی زمانی که از رگرسیون ریدج استفاده می شود، اضافه شدن $\lambda I$ به ماتریس کوواریانس نمونه تضمین می‌کند که همه مقادیر ویژه آن بزرگتر مساوی 0 خواهند بود، به بیان دیگر وارون پذیر خواهد شد و جواب یکتا خواهد شد.

در مقایسه با حداقل مربعات معمولی، رگرسیون ریج بدون تورش نیست. برای کاهش واریانس و میانگین مربعات خطا، مقداری تورش می پذیرد.

رگرسیون لسو

حداقل انتخاب مطلق و تابع لسو یک انتخاب دیگر می باشد. در رگرسیون لسو، تابع پنالتی لسو به صورت نرم درجه 1 انتخاب می شود.

R(w)=\sum _{j=1}^{d}\left|w_{j}\right|

{\frac {1}{n}}\|Y-\operatorname {X} w\|_{2}^{2}+\lambda \sum _{j=1}^{d}|w_{j}|\rightarrow \min _{w\in \mathbb {R} ^{d}}

توجه داشته باشید که تابع پنالتی لسو محدب است اما کاملا محدب نیست. برخلاف منظم‌سازی تیخونوف، این طرح راه‌حلی با فرم بسته مناسب ندارد، در عوض راه‌حل معمولاً با استفاده از برنامه‌نویسی درجه دوم یا روش‌های بهینه‌سازی محدب عمومی‌تر و همچنین با الگوریتم‌های خاص مانند الگوریتم رگرسیون حداقل زاویه، پیدا می‌شود.

تفاوت مهم بین رگرسیون لسو و منظم سازی تیخونوف این است که رگرسیون لسو در مقابل حالت دیگر مقادیر بیشتری از $w$ را مجبور می‌کند تا برابر 0 باشد. در مقابل در حالی که منظم سازی تیخونوف مقادیر $w$ را مجبور می‌کند تا مقادیر کوچکی داشته باشند و درنتیجه مقادیر کمی از آن‌ها را مجبور به صفر بودن می‌کند. بنابراین منظم‌سازی LASSO در مواردی است که ما انتظار داریم تعداد ورودی های غیر صفر از $w$ ، کم باشد مناسب تر از منظم‌سازی تیخونوف می‌باشد. زمانی که ما انتظار داریم که ورودی‌های $w$ به صورت کلی کوچک باشند و نه لزوما صفر، منظم‌سازی تیخونوف مناسب‌تر است. اینکه کدام یک از این سازوکارها مناسب‌تر است به مجموعه داده های خاص موجود بستگی دارد.

علاوه بر نحوه‌ی انتخاب ویژگی که در بالا توضیح داده شد، لسو دارای محدودیت هایی است. رگرسیون ریج دقت بهتری در صورتی که $n>d$ ارائه می دهد(برای متغیرهای بسیار همبسته )^[۱]. در حالت دیگر $n<d$ ، لسو حداکثر $n$ متغیر انتخاب می کند. علاوه بر این لسو تمایل دارد برخی از متغیرهای دلخواه را از گروه نمونه‌های بسیار همبسته انتخاب کند، بنابراین هیچ اثر گروه‌بندی‌ای وجود ندارد.

جریمه ℓ ₀

{\frac {1}{n}}\|Y-\operatorname {X} w\|_{2}^{2}+\lambda \|w_{j}\|_{0}\rightarrow \min _{w\in \mathbb {R} ^{d}}

افراطی ترین راه برای اعمال پراکندگی این است که بگوییم قدرمطلق ضرایب $w$ مهم نیست؛ بلکه تنها چیزی که پیچیدگی را تعیین می کند تعداد ورودی های غیر صفر است. این مربوط به تنظیم است. این متناظر این می‌باشد که $R(w)$ را برابر نرم $\ell _{0}$ norm، $w$ قرار دهیم. این تابع منظم‌سازی در حالی که برای پراکندگی که تضمین می کند جذاب است، اما حل آن بسیار دشوار است زیرا انجام این کار مستلزم بهینه سازی تابعی است که حتی محدب ضعیف هم نیست. رگرسیون لسو حداقل ساده‌سازی جریمه $\ell _{0}$ می‌باشد که منجر به یک مسئله بهینه سازی محدب ضعیف می شود.

الستیک‌نت

برای هر $\lambda _{1}$ و $\lambda _{2}$ غیر منفی، هدف به صورت زیر می‌باشد:

{\frac {1}{n}}\|Y-\operatorname {X} w\|_{2}^{2}+\lambda _{1}\sum _{j=1}^{d}|w_{j}|+\lambda _{2}\sum _{j=1}^{d}|w_{j}|^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}

فرض کنید $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ ، سپس راه حل مساله کمینه‌سازی به صورت زیر است:

{\frac {1}{n}}\|Y-\operatorname {X} w\|_{2}^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}{\text{ s.t. }}(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t

برای برخی

t

.

عبارت $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ را به عنوان یک تابع جریمه الاستیک‌نت درنظر بگیرید.

زمانی که α=1 باشد الستیک نت همان ریدج رگرسیون می شود و زمانی که $\alpha =0$ باشد همان لسو رگرسیون می شود. $\forall \alpha \in (0,1]$ تابع جریمه الاستیک‌نت در نقطه صفر مشتق اول ندارد و به‌طور اکید محدب می‌شود. ,برای $\forall \alpha >0$ ویژگی‌های هر دو رگرسیون لسو و ریدج را دارد.

یکی از ویژگی های اصلی الستیک‌نت توانایی انتخاب گروه‌هایی از متغیر‌های همبسته می باشد. تفاوت بین بردارهای وزنی برای دو نمونه‌ی $x_{i}$ و $x_{j}$ از رابطه زیر بدست می آید:

|w_{i}^{*}(\lambda _{1},\lambda _{2})-w_{j}^{*}(\lambda _{1},\lambda _{2})|\leq {\frac {\sum _{i=1}^{n}|y_{i}|}{\lambda _{2}}}{\sqrt {2(1-\rho _{ij})}}

، طوری‌که

\rho _{ij}=x_{i}^{T}x_{j}

. ^[۲]

اگر $x_{i}$ و $x_{j}$ همبستگی بالایی داشته‌باشند یعنی ( $\rho _{ij}\rightarrow 1$ )، فاصله بین بردارهای وزنی بسیار کم است. در مورد نمونه های همبستگی منفی ( $\rho _{ij}\rightarrow -1$ ) نمونه های $-x_{j}$ را می‌توان درنظر گرفت.

فهرست جزئی از روش های RLS

لیستی از انتخاب های ممکن تابع منظم سازی $R(\cdot )$ در ادامه آمده است.

Name	Regularization function	Corresponding prior	Methods for solving
Tikhonov regularization	$\\|w\\|_{2}^{2}$	Normal	Closed form
Lasso regression	$\\|w\\|_{1}$	Laplace	Proximal gradient descent, least angle regression
$\ell _{0}$ penalization	$\\|w\\|_{0}$	–	Forward selection, Backward elimination, use of priors such as spike and slab
Elastic nets	$\beta \\|w\\|_{1}+(1-\beta )\\|w\\|_{2}^{2}$	Normal and Laplace mixture	Proximal gradient descent
Total variation regularization	$\sum _{j=1}^{d-1}\|w_{j+1}-w_{j}\|$	–	Split–Bregman method, among others

همچنین ببینید

Least squares
Regularization in mathematics.
Generalization error, one of the reasons regularization is used.
Tikhonov regularization
Lasso regression
Elastic net regularization
Least-angle regression

منابع

↑ Tibshirani Robert (1996). "Regression shrinkage and selection via the lasso" (PDF). Journal of the Royal Statistical Society, Series B. 58: pp. 266–288.
↑ Hui, Zou; Hastie, Trevor (2003). "Regularization and Variable Selection via the Elastic Net" (PDF). Journal of the Royal Statistical Society, Series B. 67 (2): pp. 301–320.

لینک های خارجی

[1] Tibshirani Robert (1996). "Regression shrinkage and selection via the lasso" (PDF). Journal of the Royal Statistical Society, Series B. 58: pp. 266–288.

[2] Hui, Zou; Hastie, Trevor (2003). "Regularization and Variable Selection via the Elastic Net" (PDF). Journal of the Royal Statistical Society, Series B. 67 (2): pp. 301–320.

[۱]

[۲]