متن‌کاوی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Rezabot (بحث | مشارکت‌ها)
FreshmanBot (بحث | مشارکت‌ها)
جز ←‏top: اصلاح فاصله مجازی + اصلاح نویسه با ویرایشگر خودکار فارسی
خط ۱:
'''متن‌کاوی'''، به داده‌کاوی‌ای که بر روی متن انجام شود اشاره دارد. همچنین به عنوان آنالیز متن نیز شناخته می‌شود که منظور از آن فرایند استخراج [[اطلاعات]] با کیفیت از متن است. اطلاعات پر کیفیت، بطوربه‌طور معمول از فهم الگوها و گرایش‌ها از طریق معانی و به وسیلهٔ یادگیری الگوهای آماری حاصل می‌شود. متن کاوی معمولاً درگیر در فرایند ساختاردهی به ورودی‌های متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگی‌ها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام می‌گیرد)، استخراج الگوهای درون داده‌های ساختار یافته، و در نهایت ارزیابی و تفسیر خروجی‌ها است. «پر کیفیت» در متن کاوی معمولاً به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دسته‌بندی متون، خوشه بندی متون، استخراج معنی و مفهوم، تولید رده‌بندی دانه‌ای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیت‌ها است. (بطور مثال یادگیری ارتباط بین موجودیتها)
 
آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیک‌های [[داده کاوی]] شامل آنالیز اتصال و ارتباط، بصری سازی، و آنالیز پیشگویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد [[پردازش زبان‌های طبیعی]] و متدهای تحلیلی است.