مشقت بعدچندی

(تغییرمسیر از نفرین بعدیت)

نفرین ابعاد (به انگلیسی: Curse of dimensionality) به پدیده‌های گوناگونی گفته می‌شود که هنگام تحلیل و ساماندهی داده‌ها در فضاهای با ابعاد بسیار بالا (اغلب با صدها یا هزاران بعد) روی می‌دهند، ولی نه در محیط‌های با ابعاد بسیار پایین، مانند فضای فیزیکی سه‌بعدی، که در زندگی روزمره احساس می‌کنیم.

از چندین پدیده در حوزه‌هایی چون محاسبات عددی، نمونه‌برداری، ترکیبیات، یادگیری ماشینی، داده‌کاوی، و پایگاه داده‌ها با این نام یاد می‌شود. مضمون مشترک همهٔ این مشکلات آن است که با افزایش ابعاد، حجم فضا آنقدر سریع افزایش می‌یابد که داده‌های موجود پراکنده و تُنُک می‌شوند. این تنکی در هر روشی که مستلزم معنی‌داری آماری است مشکل‌ساز می‌شود. با افزایش ابعاد لازم است داده‌های مورد نیاز برای پشتیبانی از نتیجه هم اغلب به‌طور نمایی افزایش یابند تا نتیجهٔ حاصله از نظر آماری معقول و معتبر باشد. همچنین ساماندهی و جستجوی داده اغلب متکی بر شناسایی ناحیه‌هایی است که در آنجاها اشیاء گروه‌هایی با خواص مشابه تشکیل داده باشند؛ اما در داده‌های کثیرالابعاد همهٔ اشیاء از بسیاری جهات تُنُک و نامشابه به نظر می‌رسند که این امر از کارایی راهبردهای معمول و متعارف ساماندهی داده‌ها می‌کاهد.

اصطلاح مشقت بعدچندی را ریچارد بلمن هنگام کار کردن روی برنامه‌ریزی پویا وضع کرد و جا انداخت.

دامنه‌های تحت تاثیر ویرایش

یادگیری ماشینی ویرایش

مشقت چندبعدی در یادگیری ماشینی زمانی به چشم می‌آید که در حال کار کردن با داده‌هایی باشیم که نسبت ویژگی‌ها به تعداد آن‌ها بالا باشد. مشکلی که خود را در هنگام کار با داده‌هایی با ویژگی‌های بسیار زیاد خود را نشان می‌دهد، سخت بودن پیدا کردن هرگونه الگوی معنی‌داری هنگام آنالیز و تجسم کردن داده‌است. این پدیده فرایندآموزش یک مدل یادگیری ماشین را مختل می‌کند و تأثیر منفی روی دقت و سرعت آموزش مدل می‌گذارد. افزایش تعداد بعد در داده‌ها احتمال رخداد چند خطی بودن را افزایش می‌دهد.

پدیده هیوز ویرایش

پدیدهٔ هیوز نشان می‌دهد که افزایش تعداد ویژگی‌های داده باعث بهبود عملکرد یک مدل طبقه‌بندی کننده می‌شود تا زمانی که به یک نقطهٔ آپتیمال برسیم. پس از آن اضافه کردن ویژگی‌های جدید با ثابت نگه داشتن تعداد داده باعث تنزل عملکرد مدل می‌شود.

روش‌های حل مشکل مشقت بعدچندی ویرایش

کاهش ابعاد ویرایش

کاهش ابعاد، به مجموعه روش‌هایی گفته می‌شود که با استفاده از آن‌ها داده‌ها را از فضای با ابعاد بالا به فضایی با بعد کمتر نگاشت می‌کنند به صورتی که داده‌های نگاشته شده دارای ویژگی‌های معنی‌داری از داده‌های اولیه ما باشند، به صورت ایده‌آل به نحوی که در داده‌های نهایی تنها دارای ویژگی‌های مستقل از هم باشیم به طوری که بتوان داده‌های اصلی را از آن‌ها بدست آورد.

 
کاهش بعد داده‌های سه بعدی به دو بعد

روش‌های کاهش ابعاد به صورت کلی به دسته‌های خطی و غیرخطی تقسیم می‌شوند.

تغییر معیار شباهت ویرایش

مشکلی که برای داده‌ها در فضا با ابعاد زیاد رخ می‌دهد میل کردن فاصلهٔ نقاط به صفر است؛ به همین دلیل الگوریتم‌هایی مانند الگوریتم کی-نزدیک‌ترین همسایه که بر اساس معیار شباهت کار می‌کنند اثرگذاری خود را در ابعاد بالاتر از دست می‌دهند. به این دلیل است که ابعاد را می‌توان در چنین الگوریتم‌هایی به عنوان «مشقت» در نظر گرفت.

یکی از روش‌هایی که می‌توان اثر تعداد زیاد بعد در داده را کاهش داد تغییر معیار شباهت استفاده در فضای برداری‌ای است که داده‌ها در آن قرار دارند.

یکی از معیارهای شباهت که اثر وجود ابعاد زیاد در داده را تا حدی کاهش می‌دهد، شباهت کسینوسی است که برای دو بردار غیر صفر به صورت مقابل محاسبه می‌شود:

 

افزایش داده ویرایش

افزایش داده (به انگلیسی: Data augmentation) در تحلیل داده‌ها تکنیک‌هایی هستند که برای افزایش تعداد داده با اعمال تغییراتی ساده و جزیی استفاده می‌شوند. این تکنیک علاوه بر کمک به مشکل بیش‌برازش سعی می‌کنند فضای داده‌ها را از پراکندگی خارج کنند تا بتوان رابطهٔ معناداری میان داده‌ها پیدا کرد.

همچنین نگاه کنید به ویرایش

جستارهای وابسته ویرایش

منابع ویرایش