رگرسیون چندمتغیره

مدل خطی عمومی یک مدل خطی آماری است. به شکل زیر می‌توان نوشت^[۱]

\mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {U} ,

که در آن Y یک ماتریس با ردیف‌های اندازه‌گیری‌های چند متغیره است، X یک ماتریس است که می‌تواند یک ماتریس طراحی باشد، B یک ماتریس شامل متغیرهایی است که معمولاً تخمین زده می‌شوند و U ماتریسی است که شامل خطاها و نویز است. خطاها معمولاً نسبت به اندازه‌گیری‌ها و طبق یک توزیع معمولی چندمتغیره ناهمبسته فرض می‌شوند. اگر که خطاها مطابق با یک توزیع معمولی چند متغیره نباشند، مدل خطی تعمیم‌یافته برای منطقی تر کردن فرض‌ها در مورد Y و U مورد استفاده قرار می‌گیرد.

مدل خطی عمومی تعدادی از مدل‌های آماری مختلف را با هم مرتبط می‌کند: آنالیز واریانس، آنالیز کوواریانس، آنالیز چندمتغیره واریانس، آنالیز چندمتغیره کوواریانس، رگرسیون خطی معمولی، آزمون تی استیودنت و آزمون اف. مدل خطی عمومی تعمیم یافته‌ای از چند مدل رگرسیون خطی در مورد بیش از یک متغیر وابسته است. اگر Y، B و U بردارهای ستون باشند، معادله ماتریس بالا بیانگر چند رگرسیون خطی خواهد بود.

آزمون‌های فرضی با مدل خطی عمومی را می‌توان به دو روش انجام داد: چندمتغیره یا به شکل آزمون‌های متعدد تک متغیره مستقل. در آزمون‌های چندمتغیره ستون‌های Y با هم مورد بررسی قرار می‌گیرند درحالیکه در آزمون‌های تک متغیره ستون‌های Y مستقلاً بررسی می‌شوند. به‌طور مثال به عنوان آزمون‌های تک متغیره با ماتریس طراحی یکسان.

رگرسیون چند خطی

ساختار ریاضی مسئله

رگرسیون چند خطی تعمیمی از رگرسیون خطی است با در نظر گرفتن بیش از یک متغیر مستقل و یک مورد خاص مدل‌های خطی عمومی تشکیل شده با محدود کردن تعداد متغیرهای وابسته به یک.^[۲] به عنوان مثال اگر فرض کنیم متغیر ما $m$ بُعد دارد یعنی ${\vec {x}}=[x_{1},x_{2},\dots ,x_{m}]$ مسئله رگرسیون به یک مسئله بهینه‌سازی برای پیدا کردن $m+1$ پارامتر تبدیل می‌شود. به این معنی که ما یک پارامتر چند متغیره به اسم ${\vec {\beta }}=[\beta _{0},\beta _{1},\cdots ,\beta _{m}]$ داریم و سعی می‌کنیم که متغیر وابسته که همان $y$ است را با ترکیبی خطی از ${\vec {x}}$ بردارد ورودی، تخمین بزنیم یعنی $y\approx \beta _{0}+\sum _{i=1}^{m}\beta _{i}\times x_{i}$ . حال اگر یک بعد دیگر به متغیر ${\vec {x}}$ اضافه کنیم و مقدارش را همیشه عدد ثابت $1$ در نظر بگیریم ( $x_{0}=1$ ) و ${\vec {x}}$ را به صورتِ ${\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]$ تغییر دهیم، تخمینی که از $y$ داریم در واقع ضرب نقطه ای بردار ورودی و بردار پارامترهای ماست یعنی $y\approx \sum _{i=0}^{m}\beta _{i}\times x_{i}={\vec {\beta }}\,\,.\,{\vec {x}}$ . حال فرض کنیم که تعداد مثال‌هایی که قرار است برای تخمین پارامترها استفاده کنیم $n$ است و این مثال‌ها را به این شکل نمایش دهیم $D=({\vec {x_{1}}},y_{1}),\cdots ({\vec {x_{n}}},y_{n})$ . پارامتر بهینه پارامتری است که یک تابع هزینه را به حداقل برساند و تخمینهایی ما را به متغیر وابسته بسیار نزدیک کند. تابع هزینه را با جمع مربع تفاضل تخمین‌ها با متغیر وابسته تعریف می‌کنیم، به این شکل که $L(D,{\vec {\beta }})=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$ ، با این حساب پارامتر بهینه می‌شود:

${\vec {\hat {\beta }}}={\mbox{argmin}}_{\vec {\beta }}L(D,{\vec {\beta }})={\mbox{argmin}}_{\vec {\beta }}\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$

تخمین پارامتر بهینه از روش کمترین مربعات

در این روش برای بدست آوردن ${\vec {\hat {\beta }}}$ یا همان پارامتر بهینه، از تابع $L(D,{\vec {\beta }})$ نسبت به ${\vec {\beta }}$ گرادیان می‌گیریم و گرادیان را برابر صفر قرار می‌دهیم و پارامتر نمونه را بدست می‌آوریم.^[۳] از آنجا که تابع $L(D,{\vec {\beta }})$ نسبت به ${\vec {\beta }}$ تابعی کاملاً محدب است، در نقطه مینیمم گرادیان ما صفر خواهد بود و این روش پارامتر بهینه را بدست می‌دهد.^[۴] برای تسهیل کار شکل تابع را با بکارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داردیم ماتریس $X$ و ماتریس $Y$ . ماتریس $X$ ماتریس ورودهای چندمتغیره ماست. هر سطر معادل یک نمونه از داده ماست، سطر $i$ ام برابر است با $i$ امین نمونه ورودی ما یعنی بردار ${\vec {x_{i}}}$ ، از اینرو $X$ یک ماتریس $n\times (m+1)$ خواهد بود. ماتریس $Y$ از طرف دیگر برابر است با مجموعه متغیرهای وابسته داده ما. سطر $i$ ام این ماتریس برابر است با متغیر وابسته برای $i$ امین نمونه داده ما یا همان $y_{i}$ . ماتریس $Y$ یک ماتریس $n\times 1$ است. با کمک این دو ماتریس می‌توان تابع هزینه را به شکل ذیل تعریف کرد:

$L(D,{\vec {\beta }})=||X{\vec {\beta }}-Y||^{2}=(X{\vec {\beta }}-Y)^{T}(X{\vec {\beta }}-Y)=Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}$

حال گرادیان این تابع را نسبت به ${\vec {\beta }}$ پیدا می‌کنیم که می‌شود:

${\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}={\frac {\partial \left(Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}=-2X^{T}Y+2X^{T}X{\vec {\beta }}$

با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست می‌آید:

$-2X^{T}Y+2X^{T}X{\vec {\beta }}=0\Rightarrow X^{T}Y=X^{T}X{\vec {\beta }}\Rightarrow {\vec {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}Y$

پس پارامتر بهینه ما برابر است با:

${\bf {{\vec {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}Y}}$

تخمین پارامتر بهینه از روش گرادیان کاهشی تصادفی (Stochastic Gradient Descent)

روش پارامتر تخمین پارامتر بهینه از طریق کمترین مربعات ممکن است چند اشکال اساسی داشته باشد. یکی آنکه محاسبه $(X^{T}X)^{-1}$ ممکن است زمانبر باشد. بُعدِ ماتریس مربعی $X^{T}X$ برابر است با $(m+1)\times (m+1)$ و اگر بعد $m$ بالا باشد زمان محاسبه معکوس این ماتریس می‌تواند مسئله ساز شود. مضاف بر این، ماتریس ممکن است معکوس پذیر نباشد. از این رو روش‌های کاراتر و سریعتری برای تخمین پارامتر بهینه مورد استفاده قرار می‌گیرد. یکی از این روش‌ها روش گرادیان کاهشی تصادفی است. در این روش هر بار یک مثال را به صورت اتفاقی از نمونه‌های داده انتخاب کرده، گرادیان تابع هزینه را حساب می‌کنیم و کمی در جهت خلاف گرادیان پارامتر را حرکت می‌دهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان می‌دهد، برای بیشترین کاهش موضعی در خلاف جهت گرادیان باید حرکت کرد. اینکار را آنقدر ادامه می‌دهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بجای اینکه داده‌ها را به صورت تصادفی انتخاب کنیم می‌توانیم به ترتیب داده شماره $1$ تا داده شماره $n$ را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را به صورت چندین انجام دهیم تا گرادیان تابع به اندازه کافی به صفر نزدیک شود. از لحاظ ریاضی این کار را می‌توان به شکل پایین انجام داد، پارامتر ${\vec {\beta }}$ را در ابتدا به صورت تصادفی مقدار دهی می‌کنیم و بعد برای داده $i$ ام و تمامی $j$ ها، یعنی از $j=1$ تا $j=m+1$ تغییر پایین را اعمال می‌کنیم، دراینجا $\alpha$ همان مقداریست که در جهت گرادیان هربار حرکت می‌کنیم و $\left(y_{i}-{\vec {x_{i}}}.{\vec {\beta }}\right){\vec {x_{i,j}}}$ مشتق جزئی داده $i$ ام در بُعد $j$ ام است:

${\begin{cases}{\mbox{Initialize}}\,\,{\vec {\beta ^{\,old}}}\,\,{\mbox{randomly}}\\{\mbox{loop until convergence :}}\\\,\,{\mbox{for}}\,\,\,\,i=0\,\,\,\,{\mbox{to}}\,\,\,\,n:\\\,\,\,\,\,\,{\mbox{for}}\,\,\,\,j=0\,\,\,\,{\mbox{to}}\,\,\,\,m:\\\,\,\,\,\,\,\,\,\,\,\,\,{\vec {\beta _{j}^{\,new}}}={\vec {\beta _{j}^{\,old}}}+\alpha \left(y_{i}-{\vec {\beta ^{\,old}}}\,.\,{\vec {x_{i}}}\right){\vec {x_{i,j}}}\\\,\,\,\,\,\,\beta ^{\,old}=\beta ^{\,new}\end{cases}}$

تفسیر احتمالی از طریق درست نمایی بیشینه

برای بدست آوردن پارامتر بهینه ${\vec {\hat {\beta }}}$ تابع هزینه یعنی $L(D,{\vec {\beta }})$ را به حداقل می‌رسانیم. می‌توان به همین پارامتر بهینه از روش درست نمایی بیشینه هم رسید. فرض می‌کنیم که متغیر وابسته یعنی $y$ یک متغیر تصادفی است که مقدارش از یک توزیع طبیعی (توزیع گاوسی) پیروی می‌کند. این توزیع احتمال، واریانس ثابتی به اسم $\sigma$ دارد ولی میانگین آن ترکیبی خطی از متغیرهای مستقل یعنی ${\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]$ است. به عبارت دیگر میانگین ما برابر است با ${\vec {\beta }}\,.\,{\vec {x}}$ . با احتساب میانگین و واریانس توزیع متغیر وابسته ما می‌شود $y\sim N({\vec {\beta }}\,.\,{\vec {x}},\sigma )$ . حال اگر فرض کنیم داده‌های ما نسبت به هم مستقل هستند تابع درست نمایی برای تمام داده‌ها می‌شود:

$H(D,{\vec {\beta }})=\prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )=\prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}exp\left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)$

حال باید به دنبال پارامتری باشیم که این تابع بزرگنمایی را بیشینه کند. از آنجا که تابع لگاریتم مطلقاً صعودیست، بجای بیشینه کردن این تابع لگاریتمش را هم می‌شود بیشنه کرد و پارامتر بهینه را از آن طریق پیدا کرد:

$I(D,{\vec {\beta }})=\log \prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )=\log \prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}exp\left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)=n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}$

پارامتر بهینه از این طریق برابر است با:

$c_{\vec {\beta }}I(D,{\vec {\beta }})={\mbox{argmax}}_{\vec {\beta }}\left(n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\right)={\mbox{argmin}}_{\vec {\beta }}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}={\mbox{argmin}}_{\vec {\beta }}L(D,{\vec {\beta }})={\vec {\hat {\beta }}}$

همان‌طور که دیدم پارامتری که $I(D,{\vec {\beta }})$ را بیشینه می‌کند همان پارامتری است که $L(D,{\vec {\beta }})$ را به حداقل می‌رساند. این به معنی معادل بودن روش کمترین مربعات با روش درست نمایی بیشنه در رگرسیون خطی است.

تنظیم مدل (Regularization)

پیچیدگی مدل‌های پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است.^[۵] پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدل‌های خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدل‌های خطی روش‌های $L_{1}$ و $L_{2}$ هستند.^[۶] در روش $L_{1}$ ضریبی از نُرمِ $L_{1}$ به تابع هزینه اضافه می‌شود و در روش $L_{2}$ ضریبی از نُرمِ $L_{2}$ که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش $L_{1}$ تابع هزینه را به این شکل تغییر می‌دهیم:

$L_{r}(D,{\vec {\beta }})=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{1}=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}|\beta _{k}|$

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.^[۷]

در تنظیم مدل به روش $L_{2}$ تابع هزینه را به این شکل تغییر می‌دهیم:

$L_{r}(D,{\vec {\beta }})=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{2}^{2}=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}\beta _{k}^{2}$

در روش تنظیم از طریق $L_{2}$ سعی می‌شود طول اقلیدسی بردار ${\vec {\beta }}$ کوتاه نگه داشته شود. $\lambda$ در روش $L_{1}$ و $L_{2}$ یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدر $\lambda$ کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی ${\vec {\beta }}$ پرداخت می‌کنیم. مقدار ایدئال $\lambda$ از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.

کاربردها

یک کاربرد مدل خطی عمومی در تحلیل پویش‌های مغزی متعدد در آزمایش‌های علمی است که Y شامل اطلاعات رسیده از پوینده‌های مغز است، X شامل متغیرهای تجربی طراحی و اختلال‌ها است. به‌طور معمول به روش تک متغیره آزموده می‌گردد (معمولاً در این پیکربندی به یک تک متغیر جرم ارجاع داده می‌شود) و معمولاً به نقشه‌برداری متغیری آماری معروف است.^[۸]

جستارهای وابسته

منابع

ترجمه از ویکی‌پدیا انگلیسی

↑ K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19.
↑ Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific.
↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155.
↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397.
↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8.
↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.
↑ K.J. Friston, A.P. Holmes, K.J. Worsley, J. -B. Poline, C.D. Frith and R.S.J. Frackowiak (1995). "Statistical Parametric Maps in functional imaging: A general linear approach". Human Brain Mapping. 2 (4): 189–210. doi:10.1002/hbm.460020402.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[MardiaK1979Multivariate-1] K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.

[2] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19.

[3] Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific.

[4] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155.

[5] Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397.

[6] Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8.

[7] Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.

[8] K.J. Friston, A.P. Holmes, K.J. Worsley, J. -B. Poline, C.D. Frith and R.S.J. Frackowiak (1995). "Statistical Parametric Maps in functional imaging: A general linear approach". Human Brain Mapping. 2 (4): 189–210. doi:10.1002/hbm.460020402.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]