متن‌کاوی، به داده‌کاوی‌ای که بر روی متن انجام شود اشاره دارد. همچنین به عنوان آنالیز متن نیز شناخته می‌شود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، به‌طور معمول از فهم الگوها و گرایش‌ها از طریق معانی و به وسیلهٔ یادگیری الگوهای آماری حاصل می‌شود. متن کاوی معمولاً درگیر در فرایند ساختاردهی به ورودی‌های متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگی‌ها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام می‌گیرد)، استخراج الگوهای درون داده‌های ساختار یافته، و در نهایت ارزیابی و تفسیر خروجی‌ها است. «پر کیفیت» در متن کاوی معمولاً به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دسته‌بندی متون، خوشه بندی متون، استخراج معنی و مفهوم، تولید رده‌بندی دانه‌ای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیت‌ها است. (بطور مثال یادگیری ارتباط بین موجودیتها)

آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیک‌های داده کاوی شامل آنالیز اتصال و ارتباط، بصری سازی، و آنالیز پیشگویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبان‌های طبیعی و متدهای تحلیلی است.

یک کاربرد معمول، جهت اسکن مجموعه‌ای از اسناد نوشته شده در یک زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاس‌بندی پیشگویانه یا پرکردن یک پایگاه داده یا ایندکس جستجو با اطلاعات استخراج شده‌است.

متن کاوی در مقابل آنالیز متن ویرایش

اصطلاح آنالیز متن یک مجموعه از تکنیک‌های زبانشناسی، آمار و یادگیری ماشینی را توضیح می‌دهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب و کار، آنالیز اکتشافی داده، تحقیقها یا سرمایه‌گذاری ساختار داده و مدل می‌کند. این اصطلاح تقریباً مترادف متن کاوی است. اصطلاح آنالیز متن بیشتر در کسب‌وکار مورد استفاده قرار می‌گیرد در حالی که متن کاوی حوزه کاربرهای قدیمیتر به ویژه تحقیقها علوم وابسته به زندگی و هوشمند سازی دولت‌ها استفاده می‌شود.

اصطلاح آنالیز متن همچنان شرح می‌دهد که کاربرد آنالیز متن برای پاسخ به مشکل‌های کسب و کار، چه وابسته یا مستقل از پرس و جو و آنالیزهای میدانی و داده‌های عددی باشد. واضح است که ۸۰ درصد از اطلاعات وابسته به کسب و کار در شکلی بدون ساختار و متنی است. این تکنیک‌ها و فرایندها دانشی – حقایق، قواعد کسب و کار و ارتباطات – را کشف و ارائه می‌نمایند که در غیر این صورت در ساختاری متنی، غیرقابل نفوذ برای فرایندهای خودکار باقی مانده بودند.

فرایند متن کاوی ویرایش

زیر وظایف، معمولاً شامل:

  • بازیابی اطلاعات یا شناسایی یک پیکره متنی، گام مقدماتی است: جمع‌آوری یا شناختن یک مجموعه از موارد متنی، بر روی وب یا نگه داشته شده روی فایل‌های سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی، برای آنالیز.
  • اگر چه برخی سیستم‌های آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا می‌نمایند، بسیاری دیگر پردازش زبان‌های طبیعی را بسیار گسترده‌تر اجرا می‌نمایند، مثل برچسب زنی اجزای کلام، تجزیه‌کننده نحوی یا دیگر انواع آنالیز زبانی.
  • تشخیص موجودیت نام‌گذاری‌شده از تکنیک‌های اماری جهت شناختن نام‌ها استفاده می‌کند: مردم، سازمانها، نام مکان‌ها، اختصارهای خاص و غیره. ابهام زدایی – با استفاده از راهنماهای متنی –ممکن است نیاز شود برای آنکه تعیین گردد کلمه “Ford” می‌تواند به یک رئیس‌جمهور سابق آمریکا، یک کارخانه خودروسازی، یک ستاره سینما، یک رودخانه یا موجودیتی دیگر ارجاع داشته باشد.
  • تشخیص الگوی تعیین‌شدهٔ موجودیت: ویژگی‌هایی مانند شماره تلفن، آدرس ایمیل، مقادیر (همراه با واحد) می‌توانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
  • هم‌مرجع: شناسایی گروه اسمی و دیگر اصطلاح‌هایی که به شیئی یکسان ارجاع دارند.
  • استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیت‌ها و دیگر اطلاعات درون متن.
  • آنالیز نیت، درگیر در فهم ذهنی (نه حقیقی) اجزاء و استخراج فرم‌های مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. تکنیک‌های آنالیز متن در آنالیز کردن نیت و مقصود موجودیتها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمک‌کننده هستند.

جستارهای وابسته ویرایش

منابع ویرایش