نرم‌کننده هسته

نرم‌کننده هسته یا هموارساز هسته (به انگلیسی: Kernel smoother)، یک تکنیک آماری برای برآورد ارزش واقعی تابع $f:\mathbb {R} ^{p}\to \mathbb {R}$ با استفاده از میانگین وزنی همسایه‌های آن است. در اینجا وزن‌ها به وسیلهٔ هسته مشخص می‌شوند. این وزن‌ها به صورتی است که همسایه‌های نزدیک‌تر وزن بیشتری می‌گیرند. تابع به دست‌آمده به وسیلهٔ این روش هموار بوده و درجهٔ همواری آن با استفاده از یک پارامتر کنترل می‌شود. هموارسازی به کمک هسته، نوعی میانگین‌گیری متحرک می‌باشد. نرم‌کننده هسته می‌تواند توابع صاف‌تر و نرم‌تری از یک متغیر تصادفی را پدیدآورد.

نرم‌کنندگی هسته در توزیع طبیعی: توزیع واقعی، مخلوط دو توزیع طبیعی به مرکزیت ۰ و ۳ می‌باشد که با نمودار آبی‌رنگ نشان داده شده‌است. در هر قاب تصویر، ۱۰۰ نمونه از این توزیع تولید شده‌اند که با رنگ سرخ نشان داده شده‌اند. به مرکزیت هر نمونه، یک هسته گاوسی به رنگ خاکستری ترسیم شده‌است. میانگین این هسته‌ها برآورد تابع چگالی را نشان می‌دهد که با نمودار سیاه نشان داده شده‌است. برای نمایش بهتر، هسته‌های گاوسی حول هر نمونه کوچک‌تر از اندازه واقعی نشان داده‌شده‌اند.

تعریف ویرایش

$K_{h_{\lambda }}(X_{0},X)$ یک هسته به صورت زیر می‌باشد:

$K_{h_{\lambda }}(X_{0},X)=D\left({\frac {\left\|X-X_{0}\right\|}{h_{\lambda }(X_{0})}}\right)$

که در آن

$X,X_{0}\in \mathbb {R} ^{p}$
$\left\|\cdot \right\|$ فاصله اقلیدسی
$h_{\lambda }(X_{0})$ یک پارامتر مثبت (شعاع هسته)
D (t) یک تابع با با مقادیر مثبت بوده که مقادیر آن با بیشتر شدن فاصلهٔ $X_{0}$ و $X$ کاهش می‌یابد (یا حداقل افزایش نمی‌یابد).

به عنوان مثال فرض کنید که $Y(X):\mathbb {R} ^{p}\to \mathbb {R}$ یک تابع پیوسته می‌باشد روی $X$ می‌باشد. با استفاده از هستهٔ نادارایا-واتسون^[۱] که یک هستهٔ میانگین وزنی است، می‌توان تابع توزیع را به صورت زیر برآورد کرد.

${\hat {Y}}(X_{0})={\frac {\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})Y(X_{i})}}{\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})}}}$

که در آن

N تعداد نمونه‌های مشاهده شده‌است.
$Y(X{i})$ مشاهدهٔ دیده‌شده در نقطهٔ $X{i}$ است.

در ادامه به بررسی چند مورد خاص از نرم‌کننده‌های هسته می‌پردازیم.

نرم‌کننده با هستهٔ گاوسی^[۲] ویرایش

هسته گاوسی یکی از پرکاربردترین هسته‌ها است و با معادله زیر بیان می‌شود.

$K(X_{0},X_{i})=\exp \left(-{\frac {(X_{0}-X_{i})^{2}}{2b^{2}}}\right)$

که در اینجا $b$ عددی است که با استفاده از آن می‌توان میزان نرمی نمودار را کنترل کرد و یک اسکالر می‌باشد.

با افزایش مقدار $b$ شعاع هسته بزرگ‌تر شده و در نتیجه نقاط دورتر نیز سهم بیشتری در میانگین‌گیری به‌دست می‌آورند؛ بنابراین نتیجه هموارتر خواهد بود. هرچه $b$ به صفر نزدیک‌تر باشد، برآوردگر نوسان بیشتری خواهد داشت.

نرم کردن به وسیلهٔ نزدیک‌ترین همسایه‌ها^[۳] ویرایش

در اینجا برای تخمین هر نقطه از میانگین ۱۶ همسایهٔ آن استفاده شده‌است. این برآورد با استفاده از رنگ قرمز مشخص شده‌است.

از الگوریتم نزدیک‌ترین همسایه الگوبرداری شده‌است.

در اینجا برای هر نقطهٔ $X_{0}$ ، m نزدیک‌ترین همسایهٔ آن را در نظر گرفته و با میانگین‌گیری از آن‌ها مقدار $Y(X_{0})$ را تخمین می‌زنیم.

فرمول‌بندی آن نیز به این صورت است که $h_{\lambda }(X_{0})=\left\|X_{0}-X_{[m]}\right\|$ را طوری در نظر می‌گیریم که $X_{[m]}$ برابر با mامین نزدیک‌ترین همسایه است و $D(t)$ را نیز به صورت زیر تعریف می‌کنیم.

$D(t)={\begin{cases}1/m&{\text{if }}|t|\leq 1\\0&{\text{otherwise}}\end{cases}}$

در این صورت برآورد برای هر نقطه برابر با میانگین m همسایهٔ نزدیک آن خواهد بود.

نرم کردن به وسیلهٔ میانگین‌گیری ویرایش

در این روش $h_{\lambda }(X_{0})=\lambda$ را به صورت یک عدد ثابت در نظر می‌گیریم و $D(t)$ نیز یکی از هسته‌های معروف است. با این کار در هنگام میانگین‌گیری هر چه داده به نقطهٔ $X_{0}$ ما نزدیک‌تر باشد، وزن بیشتری داشته و اثر بیشتری روی خروجی نهایی می‌گذارد.

دلیل کاربرد ویرایش

دلیل تمایل به استفاده از توابع با تغییرات نرم این است که اکثر پدیده‌های موجود در طبیعت نیز دارای تغییرات نرم هستند، اما ممکن است نویزهای شکل موج را خراب کنند یا آن که متغیر تصادفی با تغییرات نامطلوب باشد.

روش کاربرد ویرایش

معمولاً از کانولوشن توزیع طبیعی روی متغیر تصادفی استفاده می‌شود.^[۴]

منابع ویرایش

↑ "Kernel regression". Wikipedia (به انگلیسی). 2022-12-15.
↑ Chung, Moo K. (2021-11-29). "Gaussian kernel smoothing". arXiv:2007.09539 [cs, stat].
↑ Stute, Winfried; Manteiga, Wenceslao González (1990-07-01). "Nearest neighbor smoothing in linear regression". Journal of Multivariate Analysis (به انگلیسی). 34 (1): 61–74. doi:10.1016/0047-259X(90)90061-L. ISSN 0047-259X.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸–۲۰۹.

[1] "Kernel regression". Wikipedia (به انگلیسی). 2022-12-15.

[2] Chung, Moo K. (2021-11-29). "Gaussian kernel smoothing". arXiv:2007.09539 [cs, stat].

[3] Stute, Winfried; Manteiga, Wenceslao González (1990-07-01). "Nearest neighbor smoothing in linear regression". Journal of Multivariate Analysis (به انگلیسی). 34 (1): 61–74. doi:10.1016/0047-259X(90)90061-L. ISSN 0047-259X.

[4] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸–۲۰۹.

[۱]

[۲]

[۳]

[۴]