فراوانی وزنی تیاف-آیدیاف: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
جز جایگزینی با اشتباهیاب: واصطلاحات⟸و اصطلاحات، نقلقولها⟸نقلقولها، دربیشتر⟸در بیشتر، دهدد⟸دهد، تعبیرآماری⟸تعبیر آماری |
جز جایگزینی با اشتباهیاب: ودستهبندی⟸و دستهبندی |
||
خط ۱:
مخّففِ term frequency - inverse document frequency یا ''فراوانی اصطلاح- معکوس فراوانی متن'' است.tf-idf در بازیابیاطلاعات ، یک آمار عددی است که میزان اهمیت یک کلمه نسبت به یک سند در یک مجموعهای از اسناد را نشان میدهد. در واقع هدف این سیستمِ وزندهی، نشاندادن اهمیت کلمه در [[سند (مدرک)|متن]] است. که اغلب در جستجوهای درون بازیابیاطلاعات،متن کاوی و مدلسازی کاربر(به [[زبان انگلیسی|انگلیسی]]: User modeling) استفاده میشود. مقدار tf-idf به تناسب تعداد تکرار کلمه در سند افزایش مییابد و توسط تعداد اسنادی که در مجموعه هستند و شامل کلمه نیز میباشند متعادل می شود. به این معنی که اگر کلمهای در بسیاری از متون ظاهر شود احتمالاً کلمهای متداول است و ارزش چندانی در ارزیابی متن ندارد.در حال حاضر tf-idf یکی از محبوب ترین روشهای وزنگذاری اصطلاحات میباشد و امروزه بیش از ۸۳ درصد از [[سامانه توصیهگر|سامانههای توصیهگر]] در کتابخانههای دیجیتال از این روش وزندهی اصطلاحات استفاده میکنند.
این اختلاف بین وزنها که توسط روش tf-idf ایجاد میشود توسط بیشتر موتورهای جستجو به عنوان ابزار اصلی رتبهدهی و امتیازدهی اسناد پرس و جو شده کاربر استفاده میشود.و همچنین برای فیلتر کردن ایست واژه ها(به [[زبان انگلیسی|انگلیسی]]: stop-words )در زمینه های موضوعی مختلف، از جمله خلاصهسازی
<br />
|