پیش-پردازش داده

پیش-پردازش داده به معنای تغییر یا دور انداختن بخشی از داده قبل از این که برای بهتر کردن کارایی استفاده شود است ^[۱] و همچنین یک مرحله مهم از فرآیند داده کاوی می‌باشد. اصطلاح ورودی زباله، خروجی زباله برای پروژه های داده کاوی و یادگیری ماشینی صادق است. معمولا روش های گرادآوری داده کنترل خاصی ندارند و باعث می‌شوند به مقادیر غیر واقعی برخورد بکنیم. (برای مثال کشور محل تولد: ایران ، شهر محل تولد: سیدنی)

پردازش چنین داده‌ای که با دقت کنترل نشده است می‌تواند منجر به نتیجه‌های گمراه کننده شود. به همین دلیل کنترل کیفیت داده اولین فاز پروژه می‌باشد و قبل از اجرای هر پردازش دیگری انجام می‌شود.^[۲] پیش-پردازش داده معمولا مهم‌ترین قسمت یک پروژه یادگیری ماشینی می باشد، مخصوصا در زیست‌شناسی محاسباتی.^[۳] حاصل پیش‌-پردازش داده همان مجموعه آموزشی ما خواهد بود.

وظایف پیش-‌پردازش داده ویرایش

مثال ویرایش

در این مثال ما یک دیتاست از شهر و کشور محل تولد ۵ فرد مختلف داریم. واضح می‌باشد که سطر ۳ و ۵ این دیتاست ترکیب های غیر ممکن می‌باشد.

		محل تولد
		شهر	کشور
فرد	۱	برلین	آلمان
	۲	تهران	ایران
	۳	اصفهان	آلمان
	۴	شیراز	ایران
	۵	فرانکفورت	ایران

حال ما می‌توانیم پاک‌سازی داده انجام بدهیم و سطرهای ۳ و ۵ را حذف کنیم زیرا چنین سطرهایی احتمالا به خاطر خطای ثبت داده ایجاد شده‌اند. یک دلیل این است که سطرهای غیرممکن می‌توانند تاثیر بدی در محاسبات یا فرآیند استفاده از داده بگذارند.

		محل تولد
		شهر	کشور
فرد	۱	برلین	آلمان
	۲	تهران	ایران
	۴	شیراز	ایران

می‌توانیم ویرایش داده انجام بدهیم و کشور محل تولد فرد را با توجه به فرض درست بودن شهر محل تولدش تغییر بدهیم. ما این کار را انجام می‌دهیم تا یک دیتای واضح تر در مراحل بعدی استفاده از داده داشته باشیم.

		محل تولد
		شهر	کشور
فرد	۱	برلین	آلمان
	۲	تهران	ایران
	۳	اصفهان	ایران
	۴	شیراز	ایران
	۵	فرانکفورت	آلمان

می‌توانیم آماده‌سازی داده انجام بدهیم و جدول را بر اساس کشور محل تولد مرتب کنیم. این کار به ساده شدن جدول و انتخاب بخشی از داده که می‌خواهیم بر آن تمرکز کنیم کمک می‌کند.

		محل تولد
		شهر	کشور
فرد	۱	برلین	آلمان
	۵	فرانکفورت	آلمان
	۲	تهران	ایران
	۳	اصفهان	ایران
	۴	شیراز	ایران

داده‌کاوی ویرایش

ریشه های پیش‌-پردازش داده در داده‌کاوی نهفته است. ایده این است که اطلاعات موجود و جستجو در محتوا را ادغام کرد. بعد تر مشخص شد که برای یادگیری ماشینی و شبکه های عصبی، نیازمند پیش‌-پردازش داده نیز هستیم.

پیش-پردازش داده اجازه حذف داده ناخواسته را با پاک‌سازی داده می‌دهد، این به کاربر کمک می‌کند تا داده ارزشمندتری داشته باشد. ویرایش داده برای اصلاح خطای انسانی یا انحراف داده یک مرحله تعیین‌کننده برای داشتن کمیت های دقیق مانند ماتریس در‌هم‌ریختگی است. کاربر می‌تواند فایل‌های داده را ادغام کند یا با فیلتر کردن هر بخشی که لازم نیست را حذف کند تا به دقت بهتری دست پیدا کند. کاربران از کتابخانه پانداس(نرم‌افزار) که مصورسازی داده، عملیات آماری و بسیاری از عملیات دیگر استفاده می‌کنند. همچنین برخی از آر(زبان برنامه‌نویسی) استفاده می‌کنند.

دلایل مختلفی وجود دارد که یک کاربر یک داده موجود را تغییر بدهد. پیش‌-پردازش داده مزایایی مانند اضافه کردن مقادیر ناموجود، ادغام اطلاعات و علامت‌گذاری داده دارد. راهکارهای پیشرفته تری مانند تحلیل مولفه‌های اصلی یا انتخاب ویژگی با فرمول‌های آماری کار می‌کنند و در داده‌های پیچیده‌تر کاربرد دارند.

پیش‌-پردازش داده معنادار ویرایش

داده‌کاوی معنادار یک زیرمجموعه از داده‌کاوی است که به طور مشخص به پیوستن دامنه دانش می‌پردازد. دامنه دانش همان دانش درباره‌ی محیطی که داده در آن پردازش شده است می‌باشد. دامنه دانش می‌تواند تاثیر مثبتی در بسیاری از جهات بر داده‌کاوی داشته باشد. همچنین با استفاده از دانش پیشین برای کوچک کردن فضای مورد نیاز برای جستجو به عنوان یک قید عمل می‌کند. به بیان ساده، پیش-پردازش داده معنادار به دنبال بهتر و دقیق‌تر فیلتر کردن داده با استفاده از محیط اصلی داده می‌باشد.

منابع ویرایش

↑ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (به انگلیسی). Retrieved 2021-10-17.
↑ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
↑ «Ten quick tips for machine learning in computational biology». BioData Mining. ۱۰ جلد: ۳۵. doi:10.1186/s13040-017-0155-3.

[1] "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (به انگلیسی). Retrieved 2021-10-17.

[2] Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.

[3] «Ten quick tips for machine learning in computational biology». BioData Mining. ۱۰ جلد: ۳۵. doi:10.1186/s13040-017-0155-3.

[۱]

[۲]

[۳]