فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۱:
'''فراوانی وزنی تی‌اف-آی‌دی‌اف''' {{انگلیسی|tf–idf weight}} مخّففِ ''term frequency - inverse document frequency'' یا ''فراوانی کلمه - معکوس فراوانی متن'' است.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref> در این شیوه به هر کلمه‌ای در هر متن یک‌وزن بر اساس فراوانی آن در متن و فراوانی کلمه در سایر متونمتونِ [[پیکره متنی]] داده می‌شود.<ref name=":0">{{Cite book|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf|title=Mining of Massive Datasets|last=Rajaraman|first1=A.|last2=Ullman|first2=J.D.|year=2011|isbn=978-1-139-05845-2|pages=1–17|chapter=Data Mining|doi=10.1017/CBO9781139058452.002}}</ref> در واقع هدف این سیستمسیستمِ وزن‌دهی، نشان‌دادن اهمیت کلمه در [[سند (مدرک)|متن]] است. این مسئله کاربردهای بسیاری در [[بازیابی اطلاعات]] و [[متن‌کاوی|متن کاوی]] دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد متونی که کلمه در آن ظاهر می‌شود کنترل می‌شود. به این معنی که اگر کلمه‌ای در بسیاری از متون ظاهر شود احتمالا کلمه‌ای متداول است و ارزش چندانی در ارزیابی متن ندارد.<ref name=":0" /> امروزه بیش از ۸۳ درصد از [[سامانه توصیه‌گر|سامانه‌های توصیه‌گر]] در کتابخانه‌های دیجیتال از این روش وزن‌دهی کلمات استفاده می‌کنند.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref>
 
== تعریف ریاضی ==
خط ۶:
</math> در متن <math>
d
</math> برابر است با حاصلضرب تابع فراوانی کلمه یا تابعیعنی <math>
tf
</math> و تابع معکوس فراوانی یا تابعیعنی <math>
idf
</math> که در پایین تعریف شده‌اند.<ref name=":1">{{cite journal|last=Luhn|first=Hans Peter|last2=|first2=|date=1957|title=A Statistical Approach to Mechanized Encoding and Searching of Literary Information|url=http://web.stanford.edu/class/linguist289/luhn57.pdf|journal=IBM Journal of Research and Development|volume=1|issue=4|pages=309-317|doi=10.1147/rd.14.0309|access-date=2 March 2015|quote=There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.}}</ref>
 
=== تابع فراوانی کلمه (tf یا termTerm frequencyFrequency) ===
اگر فرض کنیم <math>
f_{t,d}
خط ۲۳:
</math> به چند طریق می‌تواند تعریف شود<ref name=":1" />:
 
* فراوانی لگاریتمیخام: <math>
**<math>
tf(t,d)= f_{t,d}
</math>
*فراوانی خامِ نرمالیزه شده:‌
**<math>
tf(t,d)= \frac{f_{t,d}}{\sum_{s \in d} f_{s,d}}
</math>
*فراوانی [[تابع بولی|بولی]]:
**<math>
tf(t,d)= 1\left(f_{t,d}>0\right)
</math>
**اگر کلمه <math>
f_{t,d}
</math>برزگتر از صفر باشد و <math>
tf(t,d)= 0
</math>یک است و در غیر این صورت صفر.
</math> اگر <math>
* فراوانی لگاریتمی:
f_{t,d}
**<math>
</math>با صفر مساوی باشد.
* فراوانی لگاریتمی: <math>
tf(t,d)= \log(f_{t,d} + 1)
</math>
* فراوانی تکمیل شده:
* فراوانی تکمیل شده: <math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math> ، این تابع برای برای جلوگیری از تمایل به سمت متون بزرگتر مورد استفاده قرار می‌گیرید، یعنی به دلیل حجم بالاتر متن نسبت به سایر متون ممکن است کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست. این مورد بیشتر در [[موتور جستجو]] برای بازیابی مستندات با کلمات مورد جستجو کاربرد دارد.
**<math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math>
* فراوانی تکمیل شده: <math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math> ، *این تابع برای برای جلوگیری از تمایل به سمت متون بزرگتر مورد استفاده قرار می‌گیرید، یعنی به دلیل حجم بالاتر متن نسبت به سایر متون ممکن است کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست. این مورد بیشتر در [[موتور جستجو]] برای بازیابی مستندات با کلمات مورد جستجو کاربرد دارد.
 
این موارد را می‌توان در جدول پایین به صورت خلاصه نمایش داد:
 
{| class="wikitable" style="float: right; margin-left: 0; margin-right: 0; margin-top: 0;"
سطر ۸۶ ⟵ ۹۱:
 
 
=== تابع معکوس فراوانی متن (idf یا inverseiIverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در کلیه[[پیکره متون بسیارمتنی]] متداول هستند و معمولاً تکرار می‌شوند.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون در [[پیکره متنی]] بر تعداد متونمتونی که شامل کلمه متداول استفاده می‌کنیم. به زبان ریاضی این تابع را با <math> idf(t, D) = \log {N}/{|\{d \in D: t \in d\}|}</math> نشان می‌دهیم. در اینجا <math>N = {|D|}</math>یعنی تعداد کل متنها در [[پیکره متنی]] و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متن‌هایی را نمایش می‌دهد که کلمه <math>t</math></span> در آن ظاهر شده است. برای مثال: فرض کنیم در کل [[پایگاهپیکره دادهمتنی]] ما ۱۰۰۰هزار متن وجود داشته باشد. اگر در تمام این ۱۰۰۰هزار متن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم ۱۰۰۰هزار تقسیم بر ۱۰۰۰هزار می‌شود که مساوی صفر است. یعنی حتماً این کلمه جزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در ۵۰۰پانصد متن اتفاق افتاده باشد جواب می‌شود لگاریتم ۲دو که حاصل آن ۱یک است، پس ضریب ۱یک می‌گیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن <math> idf</math> کوچکتر می‌شود؛ والبته چون ممکن است کلمه‌ای اصلاً در هیچ متنی تکرار نشده باشد و مخرج صفر شود مخرج را معمولاً با ۱یک جمع می‌کنیم. البته تابع معکوس فراوانی می‌تواند فرم‌های متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده است.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref>
 
<br />
سطر ۱۳۰ ⟵ ۱۳۵:
 
=== فراوانی وزنی نهائی (tf-idf) ===
<br />فراوانی وزنی تی‌اف-آی‌دی‌اف که وزن نهایی کلمات در متون است از ضرب تابع فراوانی کلمه یعنی <math>
<br />
tf
</math> و تابع معکوس فراوانی یعنی <math>
idf
</math> بدست می‌آید.<ref name=":1" /> چند نمونه از این توابع در جدول پائین لیست شده‌است.
{| class="wikitable" style="float: top; margin-left: 0; margin-right: 0; margin-top: 0;"
|+ Recommended tf–idf weighting schemes