نرمال سازی(ریاضیات)

در ریاضیات، آمار، مالی، علوم کامپیوتر، به‌ویژه در یادگیری ماشین و مسائل معکوس، نرمال‌سازی فرایندی است که باعث تغییر پاسخ نهایی به سمت «ساده‌تر» می‌شود. این روش معمولاً برای به‌دست آوردن پاسخ مسائل بی‌قید و شرط یا جلوگیری از بیش‌برازش به‌کار می‌رود.

اگر چه فرایند نرمال‌سازی را می‌توان به چندین روش تقسیم کرد، اما تقسیم‌بندی زیر به خصوص مفید است:

نرمال‌سازی صریح، نوعی نرمال‌سازی است که در آن یک عبارت به طور صریح به مسئله بهینه‌سازی اضافه می‌شود. این عبارات می‌توانند شامل پیشینه‌ها، جرائم و یا محدودیت‌ها باشند. نرمال‌سازی صریح معمولاً در مسائل بهینه‌سازی بدون قید و شرط به‌کار می‌رود. عبارت نرمال‌سازی یا جریمه، هزینه‌ای را برای تابع بهینه‌سازی تحمیل می‌کند تا بهینه‌سازی فقط به یک پاسخ منحصر به فرد برسد.
نرمال‌سازی ضمنی شامل هر نوع نرمال‌سازی دیگری است. به عنوان مثال، این شامل مواردی مانند توقف زودهنگام، استفاده از تابع هزینه قوی و رد کردن داده‌های پرت است. نرمال‌سازی ضمنی در واقع در روش‌های یادگیری ماشین مدرن، از جمله نزول تصادفی گرادیان برای آموزش شبکه‌های عصبی عمیق و روش‌های مجموعه (مانند جنگل‌های تصادفی و درختان گرادیان افزایشی)، به طور کلی وجود دارد.

در نرمال‌سازی صریح، مستقل از مسئله یا مدل، همیشه یک عبارت داده وجود دارد که مربوط به احتمال داده‌های اندازه‌گیری شده است و یک عبارت نرمال‌سازی که مربوط به پیشینه مورد نظر است.با ترکیب هر دو روش با استفاده از آمار بیزین، می‌توان پسین را محاسبه کرد که منابع اطلاعاتی هر دو را شامل می‌شود و در نتیجه فرایند برآورد را استحکام می‌بخشد. با تعادل بین هر دو هدف، انتخاب می‌شود که بیشتر به داده‌ها عادت کند یا تعمیم‌پذیری را اعمال کند (به منظور جلوگیری از بیش‌برازش). یک شاخه تحقیقات کامل در حال پرداختن به تمام نوع نرمال‌سازی وجود دارد. در عمل، معمولاً ابتدا یک نرمال‌سازی خاص را امتحان می‌کنیم، سپس چگونگی توزیع چگالی احتمال مربوط به آن نرمال‌سازی را بررسی می‌کنیم تا انتخاب خود را توجیه کنیم. همچنین، می‌توان از الهام گرفته شده از منطق عمومی یا شهود فیزیکی استفاده کرد.

در یادگیری ماشین، عبارت داده مربوط به داده‌های آموزش است و نرمال‌سازی به انتخاب مدل و یا تغییرات در الگوریتم مربوط می‌شود. همیشه هدف کاهش خطای تعمیم، یعنی امتیاز خطای مدل آموزش دیده روی مجموعه ارزیابی و نه داده‌های آموزش است.

یکی از قدیمی‌ترین کاربردهای نرمال‌سازی، نرمال‌سازی تیخونوف است که مربوط به روش کم‌ترین مربعات است.

دسته‌بندی

یادگیری استنتاجی دسته‌کننده (از یک مجموعه داده محدود) همیشه یک مسئله نامعین است، زیرا تلاش می‌کند تا با تنها بررسی نمونه‌ها، یک تابعی را در مورد هر x مشخص کند.

یک عبارت نرمال سازی، به تابع خطای یک مدل یادگیری ماشین اضافه می‌شود.

مفاهیم محاسباتی مورد استفاده شامل محدودیت هایی برای صاف بودن و محدودیت‌هایی برای فضای برداری نرم‌دار (Normed Vector Space) هستند.

توجیه نظری برای استفاده از روش های نرمال سازی (بخشی از یادگیری ماشین است که برای جلوگیری از بیش‌برازش استفاده می‌شود) این است که سعی می‌کند اصل اوکام (Occam's razor) را در راه حل اعمال کند (همانطور که در شکل بالا نشان داده شده است، تابع سبز، یعنی تابع ساده، ممکن است ترجیح داده شود). از دیدگاه بیزین، بسیاری از تکنیک های نرمال سازی با اعمال توزیع ها پیشین خاصی بر روی پارامترهای مدل، مطابقت دارند.

نرمال‌سازی می‌تواند به چندین هدف خدمت کند، از جمله یادگیری مدل‌های ساده‌تر، تحریک کردن مدل‌ها برای بودن پراکنده و معرفی ساختار گروهی در مسئله یادگیری.

این ایده در بسیاری از حوزه های علمی بروز پیدا کرده است. یک شکل ساده از نرمال سازی که به معادلات انتگرالی (Regularization Tikhonov) اعمال می‌شود، در واقع یک تعادل بین جور درآوردن داده ها و کاهش نرم حل است. در چند سال اخیر، روش های نرمال سازی غیر خطی شامل نرمال سازی تفاضل کلی، محبوب شده اند.

کلی‌سازی

نرمال سازی می‌تواند به عنوان یک تکنیک برای بهبود قابلیت کلی‌سازی مدل یادگیری تحریک شود.

هدف این مسئله یادگیری، پیدا کردن یک تابع است که با بیشترین دقت از همه ورودی‌ها و برچسب‌ها پیش‌بینی را انجام دهد. خطای مورد انتظار یک تابع f(n)، میانگین اختلاف بین پیش‌بینی شده توسط تابع f(n) و برچسب واقعی از تمام ورودی‌ها است. این میانگین در طول فضای ورودی توزیع شده است و می‌توان آن را به صورت زیر نوشت.

معمولاً در مسائل یادگیری، تنها زیرمجموعه‌ای از داده‌های ورودی و برچسب‌ها با نویزی اندک در دسترس است. به همین دلیل، خطای مورد انتظار قابل اندازه‌گیری نیست و بهترین جایگزین موجود، خطای تجربی بر روی N نمونه موجود است.

در صورت عدم وجود محدودیتی برای پیچیدگی فضای توابع (به شکل رسانه‌های هیلبرت با هسته افزایشی) در دسترس، یک مدل یادگیری خواهیم داشت که هیچ خطایی در خطای تجربی کنونی ندارد. اگر اندازه‌گیری‌ها با نویزی انجام شده باشند، این مدل ممکن است از بیش‌برازش رنج ببرد و خطای مورد انتظار ضعیفی داشته باشد. رویه‌گذاری یک جریمه برای پوشش مناطق خاصی از فضای توابع مورد استفاده در ساخت مدل به کار می‌گیرد، که می‌تواند تعمیم‌پذیری را بهبود بخشد.

نرمال‌سازی تیخونوف

این تکنیک‌ها به نام اندری نیکلایویچ تیخونوف نامگذاری شده‌اند که نرمال سازی را برای معادلات انتگرالی به کار گرفت و در بسیاری از زمینه‌های دیگر مشارکت‌های مهمی داشت.

هنگام یادگیری تابع خطی f، که توسط بردار ناشناخته‌ی w به شکل f(x)=w*x مشخص می‌شود، می‌توان به عبارت تلفات (Loss) نرم L2 بردار w را اضافه کرد تا به راه‌حل‌هایی با نرم کوچک‌تر تمایل داشت. یکی از رایج‌ترین شکل‌های این نوع نرمال‌سازی، رگرسیون ریدج (Ridge Regression) یا تنظیم (نرمال‌سازی) تیخونوف (Tikhonov Regularization) است. این روش به شکل زیر معرفی می‌شود:

در مورد یک تابع کلی، نرم آن در فضای هیلبرت بازتولیدی نواحی آن به شکل زیر است:

یادگیری می‌تواند با کمک گرادیان کاهشی پیشرفت کند.

حداقل مربعات منظم‌شده‌ی تیخونوف (Tikhonov-regularized least squares)

مسئلهٔ یادگیری با تابع هزینه‌ی کمترین مربعات و تنظیم (نرمال‌سازی) تیخونوف، به صورت تحلیلی قابل حل است. به شکل ماتریسی، w بهینه، آن دسته از بردارهایی است که نسبت به آن‌ها، گرادیان تابع هزینه نسبت به w برابر صفر است.

توقف زودهنگام

توقف زودهنگام به عنوان یک نوع نرمال‌سازی به معنای کنترل پیچیدگی مدل در طول زمان می‌تواند تلقی شود. با توجه به این‌که فرآیند آموزش، مانند گرادیان کاهشی، با افزایش تعداد بارهای آموزشی، تابعی همیشه پیچیده‌تر را یاد می‌گیرد، در نتیجه، با استفاده از توقف زودهنگام، پیچیدگی مدل در طول زمان کنترل شده و تعمیم‌پذیری بهبود می‌یابد. در واقع، با نظارت بر عملکرد مدل در طول زمان، و متوقف کردن آموزش آن هنگامی که دیده می‌شود که عملکرد آن بر روی ست مجموعه اعتبارسنجی بهبود نمی‌یابد، کنترل پیچیدگی مدل حفظ می‌شود و این می‌تواند به بهبود عملکرد مدل در پیش‌بینی داده‌های جدید کمک کند.

توقف زودهنگام با استفاده از یک مجموعه داده برای آموزش، یک مجموعه داده آماری مستقل برای اعتبارسنجی و یک مجموعه داده دیگر برای آزمون پیاده‌سازی می‌شود. در این روش، مدل تا زمانی که عملکرد آن بر روی مجموعه اعتبارسنجی بهبود نیابد، آموزش می‌بیند و سپس بر روی مجموعه آزمون اعمال می‌شود.

انگیزه نظری در حداقل مربعات

در نظر گرفتن تقریب محدود سری نومان برای یک ماتریس برگشت‌پذیر A که اگر یک مقدار γ بیش‌تر از صفر به کار رود تا اطمینان حاصل شود که نرم کمتر از یک است، می‌توان از این روش برای تقریب حل تحلیلی مربع‌ها کمینه غیرمنظم استفاده کرد.

حل دقیق مسئله یادگیری مربع ها کمینه غیرمنظم، خطای تجربی را به حداقل می‌رساند اما ممکن است شکست خورده باشد. با محدود کردن T، پارامتر آزاد و تنها در الگوریتم بالا، مسئله به صورت منظم شده و این می‌تواند باعث بهبود عملکرد تعمیمی آن شود.

الگوریتم فوق معادل با محدود کردن تعداد تکرارهای نزول گرادیان برای خطای تجربی است.

نرمال‌سازی‌های کم‌پیوستگی

فرض کنید یک دیکشنری با بعد p به نام phi{j} داده شده است به گونه‌ای که یک تابع در فضای تابع می‌تواند به صورت زیر بیان شود.

عمال محدودیت اندکیت بر روی w می‌تواند منجر به مدل‌های ساده تر و قابل تفسیرتر شود. این در بسیاری از کاربردهای واقعی مانند زیست شناسی محاسباتی، مفید است. یک مثال، طراحی یک آزمون پیش‌بینی ساده برای یک بیماری به منظور کاهش هزینه انجام آزمایش‌های پزشکی و در عین حال بالا بردن قدرت پیش‌بینی است.

یک محدودیت معقولانه‌ی اندکی بودن تنکی، نرم L0 ,||w||0 است که به عنوان تعداد عناصر غیر صفر در وی تعریف می‌شود. حل یک مسئله یادگیری با محدودیت تنکی L0، با این حال، به عنوان NP-hard ثابت شده است.

نرم L1 (همچنین مربوط به نرم ها) می‌تواند برای تقریب بهینه نرم L0 با استفاده از شکست محدب (convex) استفاده شود. می‌توان نشان داد که نرم L1 تنکی را ایجاد می‌کند. در مورد کم‌ترین مربع‌ها، این مسئله در آمار و احتمال‌ها به عنوان LASSO و در پردازش سیگنال به عنوان Basis pursuit شناخته می‌شود.

محدودیت L1 گاهی ممکن است باعث تولید راه‌حل‌های غیر منحصر به فرد شود. یک مثال ساده در شکل ارائه شده است وقتی فضای راه‌حل‌های ممکن بر روی یک خط 45 درجه قرار دارد. این مشکل‌ها را می‌توان در برخی از برنامه‌ها داشت و با ترکیب محدودیت L1 با محدودیت L2 در محدودیت شبکه کره‌ای Overcoming Elastic Net، که به صورت زیر استفاده می‌شود، رفع می‌شود:

معمولاً محدودیت شبکه کره‌ای "Elastic Net" یک اثر گروه‌بندی دارد، به طوری که ویژگی‌های ورودی همبسته با وزن‌های مساوی تخصیص داده می‌شوند.

محدودیت شبکه کره‌ای "Elastic Net" به طور معمول در عمل استفاده می‌شود و در بسیاری از کتابخانه‌های یادگیری ماشین پیاده‌سازی شده است.

روش‌های Proximal

با اینکه نرم L1 به مسئله NP-hard منجر نمی شود، اما به دلیل وجود گوشه در x = 0 مشتق دارایی برای آن به‌صورت دقیق تعریف نمی باشد، اما چون نرم L1 به صورت محدب است، روش های زیرگروهی که بر اساس زیر مشتق کار می کنند می توانند برای حل مسائل یادگیری محدود شده با نرم L1 استفاده شوند. با این حال، با استفاده از روش های Proximal می توان به سرعت همگرایی بیشتری دست یافت.

برای یک مسئله به صورت min F(w)+R(w) که در آن F تابع خمیده، پیوسته، قابل تفرق و گرادیان لیپ‌شیتس پایدار دارد (مانند تابع هزینه کم‌ترین مربع‌ها) و R کمینه، پیوسته و مجاز است، روش proximal برای حل مسئله به شرح زیر است. ابتدا اپراتور proximal را تعریف می‌کنیم.

پراکندگی گروهی بدون همپوشانی

گروه‌هایی از ویژگی‌ها می‌توانند توسط یک محدودیتِ پراکندگی منظم شوند، که می‌تواند برای بیان دانش اولیه‌ای خاص در یک مسئله بهینه‌سازی مفید باشد. به عبارت دیگر، محدودیتِ پراکندگی می‌تواند به عنوان یک روش در بهینه‌سازی استفاده شود تا دانش قبلی ما را در مورد ویژگی‌هایی که باید باشند، به بافت مسئله بهینه‌سازی اضافه کند.

در مورد یک مدل خطی با گروه‌های شناخته شده و بدون اشتراک، می‌توان یک محدودیتِ پراکندگی تعریف کرد.

این می‌تواند به عنوان تحریک‌کننده‌ی یک محدودکننده در مورد نرم L2 برای اعضای هر گروه و سپس نرم L1 برای گروه‌ها دیده شود. این مسئله با استفاده از روش proximal قابل حل است، جایی که اپراتور proximal یک تابع فشاردهی بلوکی از نوع آستانه نرم (Soft-Thresholding) است. به این ترتیب، با اعمال این روش، می‌توانیم ضرایب را به صورت مجموعه‌ای از گروه‌های نامزد بهینه‌سازی کنیم و از این طریق به یک راه‌حل پایدار و بهینه برای مسئله بهینه‌سازی برای داده‌های بزرگ دست پیدا کنیم.

پراکندگی گروهی با همپوشانی

الگوریتمی که برای حل مسئله اختلاف گروه‌ها بدون اشتراک توصیف شده است، در برخی موارد قابل اعمال به مواردی است که گروه‌ها با یکدیگر اشتراک دارند. با این حال، این کار ممکن است منجر به تولید برخی از گروه‌ها با همه عناصرِ صفر و برخی دیگر با برخی عناصر غیر صفر و برخی دیگر صفر شود. به عبارت دیگر، این روش ممکن است نتایج نامطلوبی را در مورد اشتراک گروه‌ها ارائه دهد.

در صورتی که می‌خواهید ساختار گروهی را حفظ کنید، می‌توانید یک محدودیت جدید تعریف کنید.

برای هر (wg ، wg(bar به گونه‌ای تعریف می‌شود که محدودیت wg(bar) برای گروه g برابر با wg است و تمامی عناصر دیگر {\bar {w}}_g صفر است. محدودیتی که اعمال می‌شود، به دنبال یافتن تجزیه بهینهِ w به بخش‌های مختلف است. این می‌تواند به عنوان تکثیر همه عناصری که در چندین گروه وجود دارند، دیده شود. مسائل یادگیری با این محدودیت نیز می‌توانند با استفاده از روش proximal حل شوند، با این حال، پیچیدگی وجود دارد. اپراتور proximal به صورت بسته به صورت دقیق محاسبه نمی‌شود، اما می‌توان آن را توسط یک روش تکراری به خوبی حل کرد و باعث ایجاد یک تکرار داخلی در طول تکرار proximal می‌شود.

نرمال‌ساز برای یادگیری نیمه نظارتی

وقتی جمع آوری برچسب‌ها از ورودی‌های نمونه گرفته شده، هزینه بیشتری دارد، یادگیری نیمه‌نظارتی می‌تواند مفید باشد. نرمال‌سازها (تنظیم‌کننده‌ها) برای هدایت الگوریتم‌های یادگیری به یادگیری مدل‌هایی که ساختار نمونه‌های آموزش بدون نظارت را رعایت می‌کنند طراحی شده‌اند. اگر ماتریس وزن همسان W داده شده باشد، می‌توان یک نرمال ساز تعریف کرد.

نرمال‌ساز برای یادگیری چند کاره

در روش یادگیری چند وظیفه‌ای، T مسئله به صورت همزمان در نظر گرفته می‌شوند که هرکدام به نحوی با یکدیگر مرتبط هستند. هدف این است که T تابع را به‌صورت همزمان یاد بگیریم و قوت پیش‌بینی آن‌ها را از روابط موجود بین وظایف، بهره‌مند سازیم. این برابر است با یادگیری ماتریس W:T*D.

تنظیم کننده پراکنده روی ستون‌ها

این تنظیم کننده (Regularizer)، یک نرم L2 برای هر ستون و یک نرم L1 برای تمامی ستون‌ها تعریف می‌کند. این مسئله با استفاده از روش‌های پروکسیمال قابل حل است.

منظم‌سازی محدود به میانگین

این نرمال ساز، تابع‌های یادگیری برای هر وظیفه را محدود به شباهت با میانگین کلی توابع در تمام وظایف نگه می‌دارد. این روش برای بیان اطلاعات پیشینی استفاده می‌شود که هر وظیفه انتظار دارد با سایر وظایف به اشتراک گذاشته شود. یک مثال این مسئله، پیش‌بینی سطح آهن خون در طول روز در زمان‌های مختلف است، که هر وظیفه، یک فرد را نمایش می‌دهد.

منظم‌سازی با میانگین محدود خوشه‌ای

این نرمال‌سازی شباهتی به مورد قبل،‌ یعنی منظم‌سازی محدود به میانگین دارد، اما به‌جای اعمال شباهت بین وظایف در یک خوشه (cluster)، شباهت بین وظایف در همان خوشه را اعمال می‌کند. این روش قادر است به اطلاعات پیشین پیچیده‌تری دسترسی پیدا کند. این تکنیک برای پیش‌بینی پیشنهادهای نتفلیکس به‌کار گرفته شده‌است. هر خوشه، گروهی از افراد با سلیقه مشابه است.

شباهت مبتنی بر نمودار

به طور کلی، شباهت بین وظایف را می‌توان با یک تابع تعریف کرد. نرمال ساز مدل را تشویق می‌کند تا برای وظایف مشابه، توابع مشابهی یاد بگیرد.

سایر کاربردهای نرمال سازی در آمار و یادگیری ماشین

روش های یادگیری با استفاده از بیزین، از احتمال پیشینی استفاده می کنند که به طور معمول احتمال کمتری را به مدل های پیچیده تر اختصاص می دهد. روش های شناخته شده انتخاب مدل شامل معیار طلاعات آکایکه (AIC)، طول حداقل توصیف (MDL) و معیار اطلاعات بیزین (BIC) هستند. روش های جایگزین برای کنترل overfitting که شامل نرمال سازی نیستند، شامل cross-validation هستند.