فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۸۶:
 
=== تابع معکوس فراوانی متن (idf یا inverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در کلیه متون بسیار متداول هستند و معمولاً تکرار می‌شوند.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون بر تعداد متون شامل کلمه متداول،متداول بدستاستفاده می‌آیدمی‌کنیم. به زبان ریاضی این تابع را با <math> idf(t, D) = \log \frac{N}{|\{d \in D: t \in d\}|}</math> نشان می‌دهیم. در اینجا <math>N = {|D|}</math>یعنی تعداد کل متنها و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متن‌هایی را نمایش می‌دهد که کلمه <math>t</math></span>در آن ظاهر شده است. برای مثال: فرض کنیم در کل [[پایگاه داده]] ما ۱۰۰۰ تا متن وجود داشته باشد. اگر در هرتمام این ۱۰۰۰ تای انمتن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم ۱۰۰۰ تقسیم بر ۱۰۰۰ می‌شود که مساوی صفر است. یعنی حتماً این کلمه جزجزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در ۵۰۰ متن اتفاق افتاده باشد جواب می‌شود لگاریتم ۲ که حاصل آن ۱ استاست، پس ضریب ۱ می‌گیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن idf کوچکتر می‌شود؛ و چون ممکن است اصلاً تکرار نشده باشد و مخرج صفر شود در مخرج را اضافه می‌شود. معمولا این تابع رامعمولاً با <math>۱ idf(t,جمع D) = \log \frac{N}{|\{d \in D: t \in d\}|}</math> نشان می‌دهند، <math>N = {|D|}</math>یعنی تعداد کل متنها، و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متن‌هایی است که کلمه <math>t</math></span>در آن ظاهر شده باشدمی‌کنیم. البته این تابع معکوس فراوانی می‌تواند فرم‌های متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده است.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref>
 
<br />