کاوش داده‌‌ها

کاوش داده‌ها رویکردی شبیه به تجزیه و تحلیل داده‌های اولیه است. که با وجود آن به جای استفاده از سیستم‌های مدیریت داده‌های سنتی؛ یک تحلیلگر داده از کاوش‌های بصری برای درک آنچه در یک مجموعه داده و ویژگی‌های داده استفاده می‌کند.[۱] این ویژگی‌ها می‌تواند شامل اندازه یا مقدار داده، کامل بودن داده‌ها، درستی داده‌ها، روابط احتمالی بین عناصر داده‌ها یا فایل باشد.

کاوش داده‌های معمولاً با استفاده از ترکیب فعالیت‌های خودکار و دستی انجام می‌شود؛[۱][۲] که فعالیت‌های خودکار می‌تواند شامل نمایه سازی داده‌ها یا تجسم داده‌ها یا حتی گزارش‌های جدولی باشد تا به تحلیلگر یک دید اولیه از داده‌ها و درک ویژگی‌های کلیدی بدهد.[۱]

که اغلب با بررسی دستی یا فیلتر کردن داده‌ها برای شناسایی ناهنجاری‌ها یا الگوهای شناسایی شده از طریق فعالیت خودکار دنبال می‌شود. کاوش داده‌ها با استفاده از صفحات گسترده یا زبان هایی مانند R / SQL

می‌توانند به اسکریپت نویسی و پرسش‌های دستی در داده‌ها مشابه برای دیدن داده‌های خام نیاز داشته باشند[۳]

تمامی این فعالیت‌ها با هدف ایجاد یک مدل ذهنی و درک داده‌ها در ذهن تحلیلگر است؛ و تعریف ابر داده‌های اساسی برای مجموعه داده‌ها است که می‌تواند در تجزیه و تحلیل بیشتر استفاده شود.[۱]

زمانی که این درک اولیه از داده‌ها به دست آمد، داده‌ها را می‌توان با حذف بخش‌های غیرقابل استفاده از داده‌ها، اصلاح عناصری که قالب بندی ضعیفی دارند و تعریف روابط مرتبط در بین مجموعه داده‌ها هرس یا اصلاح کرد.[۲] این فرایند را به عنوان تعیین کیفیت داده نیز می‌شناسند.[۳]

همچنین کاوش داده می‌تواند به پرس و جو یا تجسم داده‌ها برای شناسایی روابط یا بینش‌های بالقوه ایی که ممکن است درد داده پنهان شده باشند و نیازی به فرموله کردن مفروضات از قبل نداشته باشند؛ اشاره کند.[۱]

به‌طور سنتی این منطقه ایی کلیدی برای اماردانان بود؛ مثل جان توکی که یک مبشر کلیدی در این زمینه بود.[۴] امروزه کاوش داده‌ها گسترده‌تر شده‌است و تمرکز تحلیلگران داده و دانشمندان داده روی این موضوع است. که دانشمندان داده نقش نسبتاً جدیدی در شرکت‌ها و سازمان‌های بزرگ‌تر دارند.

اکتشاف داده‌های تعاملی ویرایش

این قسمت از کاوش داده‌ها به یک منطقه مورد علاقه در زمینه ماشین لرنینگ تبدیل شده‌است. که این زمینه نسبتاً جدید و هنوز در حال پیشرفت است.[۳] به عنوان ابتدایی‌ترین سطح، یک الگوریتم ماشین لرنینگ می‌تواند با مجموعه داده‌ها تغذیه شود و همچنین می‌تواند برای تشخیص صحت یک فرضیه بر اساس مجموعه داده‌ها استفاده شود. الگوریتم‌های رایج ماشین لرنینگ می‌توانند برای شناسایی الگوهای خاص در داده‌ها تمرکز کنند.[۲] بسیاری از این الگوهای رایج مانند رگرسیون و طبقه‌بندی یو خوشه بندی هستند؛ اما الگوریتم‌ها و الگوریتم‌های ممکن زیادی وجود دارد که می‌توانند از طریق ماشین لرنینگ روی داده‌ها اعمال شوند.

با استفاده از ماشین لرنینگ می‌توان الگوها یا روابطی را در داده‌ها پیدا کرد که یافتن آنها از طریق بازرسی دستی آزمون و خطا یا تکنیک‌های سنتی اکتشاف دشوار یا غیرممکن است.[۵]

نرم‌افزار ویرایش

  • Trifacta - یک پلترفم برای آماده سازی و تجزیه تحلیل داده‌ها
  • Paxata – نرم‌افزاری برای آماده سازی داده‌های سلف سرویس
  • Alteryx – نرم‌افزاری برای ترکیب داده و تجزیه و تحلیل داده‌های پیشرفته
  • Microsoft Power BI - تجسم تعاملی و ابزار تجزیه و تحلیل داده‌ها
  • OpenRefine - یک برنامه دسکتاپ منبع باز مستقل برای پاکسازی داده‌ها و تبدیل داده‌ها
  • نرم‌افزار Tableau – نرم‌افزار تجسم داده‌های تعاملی

جستارهای وابسته ویرایش

منابع ویرایش

  1. ۱٫۰ ۱٫۱ ۱٫۲ ۱٫۳ ۱٫۴ FOSTER Open Science, Overview of Data Exploration Techniques: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
  2. ۲٫۰ ۲٫۱ ۲٫۲ Stanford.edu, 2011 Wrangler: Interactive Visual Specification of Data Transformation Scripts, Kandel, Paepcke, Hellerstein Heer.
  3. ۳٫۰ ۳٫۱ ۳٫۲ Stanford.edu, IEEE Visual Analytics Science & Technology (VAST), Oct 2012 Enterprise Data Analysis and Visualization: An Interview Study. , Sean Kandel, Andreas Paepcke, Joseph Hellerstein, Jeffrey Heer Proc.
  4. Exploratory Data Analysis, Pearson. شابک ‎۹۷۸−۰۲۰۱۰۷۶۱۶۵
  5. Machine Learning for Data Exploration