فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
جز جایگزینی با اشتباه‌یاب: واصطلاحات⟸و اصطلاحات، نقلقولها⟸نقل‌قولها، دربیشتر⟸در بیشتر، دهدد⟸دهد، تعبیرآماری⟸تعبیر آماری
جز جایگزینی با اشتباه‌یاب: ودسته‌بندی⟸و دسته‌بندی
خط ۱:
مخّففِ term frequency - inverse document frequency یا ''فراوانی اصطلاح- معکوس فراوانی متن'' است.tf-idf در بازیابی‌اطلاعات ، یک آمار عددی است که میزان اهمیت یک کلمه نسبت به یک سند در یک مجموعه‌ای از اسناد را نشان می‌دهد. در واقع هدف این سیستمِ وزن‌دهی، نشان‌دادن اهمیت کلمه در [[سند (مدرک)|متن]] است. که اغلب در جستجو‌های درون بازیابی‌اطلاعات،متن کاوی و مدل‌سازی کاربر(به [[زبان انگلیسی|انگلیسی]]: User modeling) استفاده می‌شود. مقدار tf-idf به تناسب تعداد تکرار کلمه در سند افزایش می‌یابد و توسط تعداد اسنادی که در مجموعه هستند و شامل کلمه نیز می‌باشند متعادل می شود. به این معنی که اگر کلمه‌ای در بسیاری از متون ظاهر شود احتمالاً کلمه‌ای متداول است و ارزش چندانی در ارزیابی متن ندارد.در حال حاضر tf-idf یکی از محبوب ترین روش‌های وزن‌گذاری اصطلاحات می‌باشد و امروزه بیش از ۸۳ درصد از [[سامانه توصیه‌گر|سامانه‌های توصیه‌گر]] در کتابخانه‌های دیجیتال از این روش وزن‌دهی اصطلاحات استفاده می‌کنند.
 
این اختلاف بین وزن‌ها که توسط روش tf-idf ایجاد می‌شود توسط بیشتر موتورهای جستجو به عنوان ابزار اصلی رتبه‌دهی و امتیاز‌دهی اسناد پرس و جو شده کاربر استفاده می‌شود.و همچنین برای فیلتر کردن ایست واژه ها(به [[زبان انگلیسی|انگلیسی]]: stop-words )در زمینه های موضوعی مختلف، از جمله خلاصه‌سازی ودسته‌بندیو دسته‌بندی متن با موفقیت استفاده شده است.یکی از ساده ترین تابع های رتبه بندی با جمع کردن وزن بدست آمده توسط tf-idf برای هر اصطلاح پرس و جو محاسبه می شود. بسیاری از توابع رتبه بندی پیچیده تر بر اساس این مدل ساده به وجود آمده اند.
 
<br />