فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۱:
'''فراوانی وزنی تی‌اف-آی‌دی‌اف''' {{انگلیسی|tf–idf weight}} مخفف فراوانی - عکس فراوانی سند است.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref> در این شیوه به لغات یک‌وزن بر اساس فراوانی آن در سند داده می‌شود.<ref name=":0">{{Cite book|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf|title=Mining of Massive Datasets|last=Rajaraman|first1=A.|last2=Ullman|first2=J.D.|year=2011|isbn=978-1-139-05845-2|pages=1–17|chapter=Data Mining|doi=10.1017/CBO9781139058452.002}}</ref> در واقع این سیستم وزن دهی نشان می‌دهد چقدر یک کلمه برای یک [[سند (مدرک)|متن]] مهم است. این مسئله کاربردهای بسیاری در [[بازیابی اطلاعات]] دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد کلمات در متن کنترل می‌شود، چرا که می‌دانیم در صورت زیاد بودن طول متن، بعضی از کلمات به طور طبیعی بیشتر از دیگران تکرار خواهند شد، اگرچه چندان اهمیتی در معنی نداشته باشند.<ref name=":0" />
 
== تعریف ریاضی ==
خط ۶:
</math> در متن <math>
d
</math> برابر است با حاصلضرب تابع فراوانی کلمه و تابع معکوس فراوانی که در پایین تعریف شده‌اند.<ref name=":1">{{cite journal|last=Luhn|first=Hans Peter|last2=|first2=|date=1957|title=A Statistical Approach to Mechanized Encoding and Searching of Literary Information|url=http://web.stanford.edu/class/linguist289/luhn57.pdf|journal=IBM Journal of Research and Development|volume=1|issue=4|pages=309-317|doi=10.1147/rd.14.0309|access-date=2 March 2015|quote=There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.}}</ref>
 
=== تابع فراوانی کلمه (tf یا term frequency) ===
خط ۱۷:
</math> اتفاق افتاده است، تابع فراوانی کلمه یا <math>
tf(t,d)
</math> به چند طریق می‌تواند ظاهر شود<ref name=":1" />:
 
*<math>
خط ۸۶:
 
=== تابع معکوس فراوانی متن (idf یا inverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در کلیه متون بسیار متداول هستند و معمولاً تکرار می‌شوند.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون بر تعداد متون شامل کلمه متداول، بدست می‌آید. برای مثال: فرض کنیم در کل [[پایگاه داده]] ما ۱۰۰۰ تا متن وجود داشته باشد. اگر در هر ۱۰۰۰ تای ان یک کلمه خاص (مثلاً است) وجود داشته باشد حاصل لگاریتم ۱۰۰۰ تقسیم بر ۱۰۰۰ می‌شود صفر. یعنی حتماً این کلمه جز کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در ۵۰۰ متن اتفاق افتاده باشد می‌شود لگاریتم ۲ که حاصل ۱ است ضریب ۱ می‌گیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن idf کوچکتر می‌شود؛ و چون ممکن است اصلاً تکرار نشده باشد و مخرج صفر شود در مخرج +۱ اضافه می‌شود. معمولا این تابع را با <math> idf(t, D) = \log \frac{N}{|\{d \in D: t \in d\}|}</math> نشان می‌دهند، <math>N = {|D|}</math>یعنی تعداد کل متنها، و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متن‌هایی است که کلمه <math>t</math></span>در آن ظاهر شده باشد. البته این تابع می‌تواند فرم‌های متفاوتی بگیرد که در جدول پایین نمایش داده شده است.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref>
 
<br />