'''فراوانی وزنی تیاف-آیدیاف''' {{انگلیسی|tf–idf weight}} مخّففِ ''term frequency - inverse document frequency'' یا ''فراوانی کلمه - معکوس فراوانی متن'' است.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref> در این شیوه به هر کلمهای در هر متن یکوزن بر اساس فراوانی آن در متن و فراوانی کلمه در سایر متونمتونِ [[پیکره متنی]] داده میشود.<ref name=":0">{{Cite book|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf|title=Mining of Massive Datasets|last=Rajaraman|first1=A.|last2=Ullman|first2=J.D.|year=2011|isbn=978-1-139-05845-2|pages=1–17|chapter=Data Mining|doi=10.1017/CBO9781139058452.002}}</ref> در واقع هدف این سیستمسیستمِ وزندهی، نشاندادن اهمیت کلمه در [[سند (مدرک)|متن]] است. این مسئله کاربردهای بسیاری در [[بازیابی اطلاعات]] و [[متنکاوی|متن کاوی]] دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش مییابد، اما توسط تعداد متونی که کلمه در آن ظاهر میشود کنترل میشود. به این معنی که اگر کلمهای در بسیاری از متون ظاهر شود احتمالا کلمهای متداول است و ارزش چندانی در ارزیابی متن ندارد.<ref name=":0" /> امروزه بیش از ۸۳ درصد از [[سامانه توصیهگر|سامانههای توصیهگر]] در کتابخانههای دیجیتال از این روش وزندهی کلمات استفاده میکنند.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref>
== تعریف ریاضی ==
</math> در متن <math>
d
</math> برابر است با حاصلضرب تابع فراوانی کلمه یا تابعیعنی <math>
tf
</math> و تابع معکوس فراوانی یا تابعیعنی <math>
idf
</math> که در پایین تعریف شدهاند.<ref name=":1">{{cite journal|last=Luhn|first=Hans Peter|last2=|first2=|date=1957|title=A Statistical Approach to Mechanized Encoding and Searching of Literary Information|url=http://web.stanford.edu/class/linguist289/luhn57.pdf|journal=IBM Journal of Research and Development|volume=1|issue=4|pages=309-317|doi=10.1147/rd.14.0309|access-date=2 March 2015|quote=There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.}}</ref>
=== تابع فراوانی کلمه (tf یا termTerm frequencyFrequency) ===
اگر فرض کنیم <math>
f_{t,d}
</math> به چند طریق میتواند تعریف شود<ref name=":1" />:
* فراوانی لگاریتمیخام: <math>▼
**<math>
tf(t,d)= f_{t,d}
</math>
*فراوانی خامِ نرمالیزه شده:
**<math>
tf(t,d)= \frac{f_{t,d}}{\sum_{s \in d} f_{s,d}}
</math>
*فراوانی [[تابع بولی|بولی]]: **<math>
tf(t,d)= 1\left(f_{t,d}>0\right)
</math> **اگر کلمه <math>
f_{t,d}
</math>برزگتر از صفر باشد و <math>
tf(t,d)= 0
</math>یک است و در غیر این صورت صفر.
</math> اگر <math>
* فراوانی لگاریتمی:
f_{t,d}
**<math>
</math>با صفر مساوی باشد.
▲* فراوانی لگاریتمی: <math>
tf(t,d)= \log(f_{t,d} + 1)
</math>
* فراوانی تکمیل شده:
* فراوانی تکمیل شده: <math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math> ، این تابع برای برای جلوگیری از تمایل به سمت متون بزرگتر مورد استفاده قرار میگیرید، یعنی به دلیل حجم بالاتر متن نسبت به سایر متون ممکن است کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست. این مورد بیشتر در [[موتور جستجو]] برای بازیابی مستندات با کلمات مورد جستجو کاربرد دارد. ▼
**<math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math>
▲* فراوانی تکمیل شده: <math>tf(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math> ، *این تابع برای برای جلوگیری از تمایل به سمت متون بزرگتر مورد استفاده قرار میگیرید، یعنی به دلیل حجم بالاتر متن نسبت به سایر متون ممکن است کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست. این مورد بیشتر در [[موتور جستجو]] برای بازیابی مستندات با کلمات مورد جستجو کاربرد دارد.
این موارد را میتوان در جدول پایین به صورت خلاصه نمایش داد:
{| class="wikitable" style="float: right; margin-left: 0; margin-right: 0; margin-top: 0;"
=== تابع معکوس فراوانی متن (idf یا inverseiIverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در کلیه[[پیکره متون بسیارمتنی]] متداول هستند و معمولاً تکرار میشوند.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون در [[پیکره متنی]] بر تعداد متونمتونی که شامل کلمه متداول استفاده میکنیم. به زبان ریاضی این تابع را با <math> idf(t, D) = \log {N}/{|\{d \in D: t \in d\}|}</math> نشان میدهیم. در اینجا <math>N = {|D|}</math>یعنی تعداد کل متنها در [[پیکره متنی]] و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متنهایی را نمایش میدهد که کلمه <math>t</math></span> در آن ظاهر شده است. برای مثال: فرض کنیم در کل [[پایگاهپیکره دادهمتنی]] ما ۱۰۰۰هزار متن وجود داشته باشد. اگر در تمام این ۱۰۰۰هزار متن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم ۱۰۰۰هزار تقسیم بر ۱۰۰۰هزار میشود که مساوی صفر است. یعنی حتماً این کلمه جزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در ۵۰۰پانصد متن اتفاق افتاده باشد جواب میشود لگاریتم ۲دو که حاصل آن ۱یک است، پس ضریب ۱یک میگیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن <math> idf</math> کوچکتر میشود؛ والبته چون ممکن است کلمهای اصلاً در هیچ متنی تکرار نشده باشد و مخرج صفر شود مخرج را معمولاً با ۱یک جمع میکنیم. البته تابع معکوس فراوانی میتواند فرمهای متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده است.<ref>{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref>
<br />
=== فراوانی وزنی نهائی (tf-idf) ===
<br />فراوانی وزنی تیاف-آیدیاف که وزن نهایی کلمات در متون است از ضرب تابع فراوانی کلمه یعنی <math>
<br />
tf
</math> و تابع معکوس فراوانی یعنی <math>
idf
</math> بدست میآید.<ref name=":1" /> چند نمونه از این توابع در جدول پائین لیست شدهاست.
{| class="wikitable" style="float: top; margin-left: 0; margin-right: 0; margin-top: 0;"
|+ Recommended tf–idf weighting schemes
|