فراوانی وزنی تیاف-آیدیاف
مخّففِ term frequency - inverse document frequency یا فراوانی اصطلاح- معکوس فراوانی متن است.tf-idf در بازیابیاطلاعات، یک آمار عددی است که میزان اهمیت یک کلمه نسبت به یک سند در یک مجموعهای از اسناد را نشان میدهد. در واقع هدف این سیستمِ وزندهی، نشاندادن اهمیت کلمه در متن است؛ که اغلب در جستجوهای درون بازیابیاطلاعات، متن کاوی و مدلسازی کاربر (به انگلیسی: User modeling) استفاده میشود. مقدار tf-idf به تناسب تعداد تکرار کلمه در سند افزایش مییابد و توسط تعداد اسنادی که در مجموعه هستند و شامل کلمه نیز میباشند متعادل میشود. به این معنی که اگر کلمهای در بسیاری از متون ظاهر شود احتمالاً کلمهای متداول است و ارزش چندانی در ارزیابی متن ندارد. در حال حاضر tf-idf یکی از محبوبترین روشهای وزنگذاری اصطلاحات میباشد و امروزه بیش از ۸۳ درصد از سامانههای توصیهگر در کتابخانههای دیجیتال از این روش وزندهی اصطلاحات استفاده میکنند.
این اختلاف بین وزنها که توسط روش tf-idf ایجاد میشود توسط بیشتر موتورهای جستجو به عنوان ابزار اصلی رتبهدهی و امتیازدهی اسناد پرس و جو شده کاربر استفاده میشود؛ و همچنین برای فیلتر کردن ایست واژه ها (به انگلیسی: stop-words)در زمینههای موضوعی مختلف، از جمله خلاصهسازی و دستهبندی متن با موفقیت استفاده شدهاست. یکی از سادهترین تابعهای رتبهبندی با جمع کردن وزن بدست آمده توسط tf-idf برای هر اصطلاح پرس و جو محاسبه میشود. بسیاری از توابع رتبهبندی پیچیدهتر بر اساس این مدل ساده به وجود آمدهاند.
انگیزهها
ویرایشفراوانی اصطلاح (کلمه)
ویرایشفرض کنید ما مجموعه ای از اسناد متنی انگلیسی داریم و میخواهیم اسناد را به نسبت ارتباطشان با پرس و جو رتبهبندی کنیم. مثلاً "the brown cow" را در نظر بگیرید. یک راه ساده برای شروع این است که اسناد و مدارک که شامل هر سه کلمه "brown", "cow" و "the" نیستند را حذف کنیم، اما این کار هنوز اسناد زیادی را باقی میگذارد. برای تشخیص و رتبهبندی بهتر آنها، ممکن است تعداد دفعاتی که هر اصطلاح در هر سند اتفاق میافتد، شمارش شود؛ تعداد دفعاتی که یک اصطلاح در یک سند اتفاق میافتد فراوانی اصطلاح نامیده میشود. با این حال، در مواردی که در آن طول اسناد بسیار متفاوت است، اغلب تنظیماتی برای متعادل سازی وزن انجام میشود (به تعریف زیر نگاه کنید). اولین حالت وزن گذاری به وسیله هانس پیتر لوون (۱۹۵۷) انجام شد که میتوان آن را اینطور خلاصه کرد:
وزن یک اصطلاح که در یک سندآمده است به سادگی متناسب با فراوانی اصطلاح است.
معکوس فروانی سند
ویرایشاز آنجا که اصطلاح "the" بسیار رایج است، فراوانی اصطلاح به اشتباه و بدون دادن وزن کافی به شرایط معنی دار تر "brown" و "cow" بر اسناد و مدارک که کلمه "the" بیشتر در آنها تکرارشده است، تاکید میکند. اصطلاح "the" بر خلاف واژههای رایج تر "brown" و "cow" کلید واژه ای مناسب برای تشخیص اسناد و اصطلاحات مرتبط و غیر مرتبط نیست؛ بنابراین فاکتور " معکوس فراوانی سند " در نظر گرفته شدهاست که وزن اصطلاحاتی را که در مجموعه سند بسیار تکرار میشوند را کاهش دهد و وزن اصطلاحاتی که به ندرت در سند ظاهر میشوند را افزایش دهد. کارن اسپارک جونز (۱۹۷۲) یک تعبیر آماری از ویژگیهای اصطلاح به نام معکوس فراوانی سند (idf) را به وجود آورد که پایه و اساس وزندهی به اصطلاحات بود:
یک اصطلاح را میتوان توسط یک تابع معکوس از تعداد اسناد که در آن ظاهر میشود، تعیین کیفیت کرد.
تعریف
ویرایشtf-idf از دو مقدار عددی فراوانی اصطلاح و معکوس فراوانی سند بدست میآید، راههای مختلفی برای تعیین ارزش دقیق هر دو مقدار وجود دارد.
فراوانی اصطلاح
ویرایشweighting scheme | tf weight |
---|---|
دو دویی | ۰و۱ |
شمارش خام | |
فرکانس اصطلاح | |
نرمال سازی لگاریتمی | |
double normalization 0.5 | |
double normalization K |
در مورد فراوانی اصطلاح (به انگلیسی: term frequency)tf(t,d) سادهترین راه شمارش تعداد تکرار اصطلاح در سند میباشد ،(تعداد تکرار اصطلاح t در سند d). اگر ما شمارش خام را با ft,d نشان دهیم سادهترین طرح tf میتواندtf(t,d) = ft,d باشد؛ که تعاریف دیگری نیز دارد::
که این موارد در جدول روبرو نیز به صورت خلاصه آمده:
- فراوانی بولی :اگر اصطلاح t در سند d آمده باشدtf(t,d) = ۱ در غیر این صورت tf(t,d) = ۰
- فراوانی اصطلاح بر اساس طول سند تنظیم شدهاست:(تعداد کلمات موجود در سند d) ÷ ft,d
- فراوانی مقیاس لگاریتمی:
tf(t,d) = log (1 + ft,d)
- فراوانی افزوده :به منظور جلوگیر از تمایل به طرف اسناد طولانیتر
معکوس فراوانی سند
ویرایشطرح وزن | idf weight () |
---|---|
یگانی | ۱ |
فرکانس سند معکوس | |
فرکانس سند معکوس صاف | |
فرکانس سند معکوس حداکثر | |
فرکانس سند معکوس احتمالی |
معکوس فراوانی سند اندازهگیری میزان اطلاعاتی است که کلمه (برای مثال، اگر در همه اسناد معمول یا نادر باشد) ارائه میدهد. در واقع معکوس فراوانی سند، لگاریتم معکوس کسر اسنادی است که حاوی کلمه هستند (به وسیله تقسیم تعداد کل اسناد به تعداد اسناد حاوی اصطلاح و سپس گرفتن لگاریتم این معادله):
که در این معادله:
- :تعداد کل اسناد موجود در مجموعه
- تعداد اسنادی که اصطلاح در آنها آورده شده ) اگر اصطلاح در هیچ سندی نباشد ممکن است مخرج کسر صفر شود برای جلوگیری از این مشکل راه کار زیر را داریم.
فراوانی اصطلاح-معکوس فراوانی اصطلاح
ویرایشحالتهای مختلف توابع معکوس فراوانی سند: استاندارد، یکنواخت، احتمالاتی. پس tf-idf به این صورت محاسبه میشود:
وزن بالا در tf-idf توسط تکرار زیاد یک اصطلاح (در سند داده شده) و تعداد تکرار کم در اسناد مجموعه بدست میآید؛ و به این صورت وزن اصطلاحات رایج متعادل میشود؛ و از آن جایی که مقدار تابع لگاریتمی idf همیشه بیشتر یا برابر مقدار ۱ میباشد میتوان نتیجه گرفت مقدار tf-idf همیشه بیشتر یا برابر مقدار ۰ میباشد. به عنوان مثال یک اصطلاح که در بیشتر اسناد ظاهر میشود، نسبت داخل لگاریتم را به ۱ نزدیک میکند، و idf و tf-idf را به صفر نزدیکتر میکند.
weighting scheme | document term weight | query term weight |
---|---|---|
۱ | ||
۲ | ||
۳ |
توجیه idf
ویرایشIDF در سال ۱۹۷۲ توسط کارن جونز معرفی شد، به عنوان «ویژگی اصطلاح». اگر چه به خوبی به عنوان یک اکتشاف کار کردهاست، ولی تعریف پایههای نظری آن حداقل برای سه دهه پس از معرفی آن مشکل بودهاست، و بسیاری از محققان تلاش دارند تا یکنظریه اطلاعات برای آن پیدا کنند.
توضیح خود اسپارک جونز توضیح علمی زیادی ارائه نمیدهد، به جز ارتباط با قانون زیف. Attempts have been made to put idf on a probabilistic footing, تلاشهایی برای قرار دادن idf بر پایه نظریه احتمال انجام شدهاست. تلاشهایی برای قرار دادن idf برپایه احتمال انجام شدهاست با برآورد احتمال اینکه یک سند داده شده d شامل یک عبارت t به عنوان فرکانس سند نسبی باشد،
پس میتوان idf را به صورت زیر تعریف کرد:
استفاده از چنین مفاهیمی در مورد مسائل بازیابی اطلاعات منجر به مشکل در هنگام تعریف فضاهای رویداد مناسب برای توزیع احتمالی مورد نیاز میشود: نه تنها باید اسناد را در نظر گرفت، بلکه همچنین پرس و جو و اصطلاحات را نیز باید در نظر گرفت.
مثالی برای tf-idf
ویرایشفرض کنید که ما تعداد جداول اصطلاح یک متن را داریم که متشکل از تنها دو سند است، همانطور که در سمت راست ذکر شدهاست.
اصطلاح | تعداد تکرار اصطلاح |
---|---|
this | ۱ |
is | ۱ |
another | ۲ |
example | ۳ |
اصطلاح | تعداد تکرار اصطلاح |
---|---|
this | ۱ |
is | ۱ |
a | ۲ |
sample | ۱ |
محاسبه tf-idf برای اصطلاح "this" به صورت زیر انجام میشود:
در فرم فرکانس خام، TF تنها فرکانس "this" برای هر سند است. در هر سند، کلمه "this" یکبار تکرار شدهاست؛ اما همانطور که مشاهده میشود سند ۲ کلمات بیشتری دارد، در نتیجه فرکانس نسبی آن کوچکتر است.
یک IDF در هر واحد ثابت است و برای نسبت اسنادی که عبارت «this» را شامل میشوند، حساب میشود. در این مورد، ما یک مجموعه از دو سند داریم و همه آنها شامل کلمه "this" است.
بنابراین TF-idf برای کلمه «این» صفر است، که این بدان معنی است که کلمه بسیار مؤثری نیست، زیرا در تمام اسناد ظاهر میشود.
کلمه "example" مؤثر تر است زیرا سه بار تکرار میگردد، و تنها در سند دوم تکرار میشود:
در پایان،
فراتر از اصطلاحات
ویرایشایده TF-idf نیز به اشخاص غیر از شرایط اعمال میشود. در سال ۱۹۹۸، مفهوم idf به نقل قولها اعمال شد. نویسندگان اظهار داشتند که "اگر یک استناد بسیار غیرمستقیم با دو اسناد به اشتراک گذاشته شود، این باید بیشتر از یک استناد با تعداد زیادی از اسناد" وزن شود. " علاوه بر این، TF-idf به "کلمات بصری" با هدف انجام تطبیق جسم در فیلمها و جملات کامل اعمال شد. با این حال، مفهوم tf-idf در همه موارد موثرتر از یک طرح tf ساده (بدون idf) اثبات کرد. هنگامی که TF-idf برای نقلقولها اعمال شد، محققان نمیتوانستند در مورد وزن صدای ساده استناد کنند که هیچ جزء idf وجود نداشت.
مشتقات
ویرایشتعدادی از طرحهای وزن با استفاده از tf-idf استخراج شدهاست. یکی از آنها TF-PDF (فرکانس فرکانس * فرکانس سمعی) است. TF-PDF در سال ۲۰۰۱ در زمینه شناسایی موضوعات در حال ظهور در رسانهها معرفی شد. جزء PDF، تفاوت در میزان زمانی که یک اصطلاح در حوزههای مختلف رخ میدهد اندازهگیری میشود. یکی دیگر از مشتقات TF-IDuF است. در TF-IDuF, IDF بر اساس کپی سند محاسبه نمیشود که برای جستجو یا توصیه میشود. در عوض IDF براساس جمعآوری اسناد شخصی کاربران محاسبه میشود. نویسندگان گزارش دادند که TF-IDuF به همان اندازه به عنوان TF-idf مؤثر است، اما همچنین میتواند در شرایطی که، مانند یک سیستم مدلسازی کاربر، دسترسی به یک کپی سند جهانی نداشته باشد.