فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
خط ۲۷:
tf(t,d)= f_{t,d}
</math>
*فراوانی خامِ نرمالیزهنرمال‌سازی شده:‌
**<math>
tf(t,d)= \frac{f_{t,d}}{\sum_{s \in d} f_{s,d}}
خط ۹۳:
 
=== تابع معکوس فراوانی متن (idf یا Inverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در [[پیکره متنی]] متداول هستند و معمولاً تکرار می‌شوند.<ref name=":3">{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون در [[پیکره متنی]] بر تعداد متونی که شامل کلمه متداول استفاده می‌کنیم. به زبان ریاضی این تابع را با <math> idf(t, D) = \log {N}/{|\{d \in D: t \in d\}|}</math> نشان می‌دهیم. در اینجا <math>N = {|D|}</math>یعنی تعداد کل متنها در [[پیکره متنی]] و <math> |\{d \in D: t \in d\}| </math> <span>تعداد متن‌هایی را نمایش می‌دهد که کلمه <math>t</math></span> در آن ظاهر شده است. برای مثال: فرض کنیم در [[پیکره متنی]] ما هزار متن وجود داشته باشد. اگر در تمام این هزار متن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم هزار تقسیم بر هزار می‌شود صفر. یعنی حتماً این کلمه جزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در پانصدصد متن اتفاق افتاده باشد جواب می‌شود لگاریتم دوده که حاصل آن یک است، پس ضریب یک می‌گیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن <math> idf</math> کوچکتر می‌شود؛ البته چون ممکن است کلمه‌ای اصلاً در هیچ متنی تکرار نشده باشد و مخرج صفر شود مخرج را معمولاً با یک جمع می‌کنیم. البته تابع معکوس فراوانی می‌تواند فرم‌های متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده است.<ref name=":3" />
 
<br />
خط ۱۵۰:
|-
| 3 || <math> (1 + \log f_{t,d}) \cdot \log \frac {N} {n_t} </math> || <math> (1 + \log f_{t,q}) \cdot \log \frac {N} {n_t} </math>
|}<br />
 
== مثال ==
فرض کنیم <math> D </math> پیکره متنی ما باشد و فقط دو متن داشته باشد به این شکل: <math> D = \{d_1 = \mbox{a, this is a sample}, \,\,d_2 = \mbox{example, this is another example, another example} \} </math>.
 
ابتدا تابع فراوانی کلمه <math> \mathsf{this} </math>را در هر دو متن حساب میکنیم:‌
 
: <math> \mathrm{tf}(\mathsf{this}, d_{1}) = \frac{1}{5} = 0.2 </math>
: <math> \mathrm{tf}(\mathsf{this}, d_{2}) = \frac{1}{7} \approx 0.14 </math>
 
سپس تابع معکوس فراوانی این کلمه را برای پیکره متنی <math> D </math> محاسبه می‌کنیم، جواب صفر میشود:
 
: <math> \mathrm{idf}(\mathsf{this}, D) = \log \left (\frac{2}{2} \right ) = 0 </math>
 
فراوانی نهایی ما که حاصلضرب دو تابع اخیر برای هر دو متن صفر می‌شود:
 
: <math> \mathrm{tfidf}(\mathsf{this}, d_{1}, D) = 0.2 \times 0 = 0 </math>
: <math> \mathrm{tfidf}(\mathsf{this}, d_{2}, D) = 0.14 \times 0 = 0 </math>
 
کلمه <math> \mathsf{example} </math> را هم به همان شکل حساب میکنیم:
 
: <math> \mathrm{tf}(\mathsf{example}, d_{1}) = \frac{0}{5} = 0 </math>
: <math> \mathrm{tf}(\mathsf{example}, d_{2}) = \frac{3}{7} \approx 0.429 </math>
: <math> \mathrm{idf}(\mathsf{example}, D) = \log \left (\frac{2}{1} \right ) = 0.301 </math>
 
جواب نهائی برای کلمه <math> \mathsf{example} </math> در دو متن برابر خواهد بود با:‌
 
: <math>\mathrm{tfidf}(\mathsf{example}, d_1, D) = \mathrm{tf}(\mathsf{example}, d_1) \times \mathrm{idf}(\mathsf{example}, D) = 0 \times 0.301 = 0</math>
: <math>\mathrm{tfidf}(\mathsf{example}, d_2, D) = \mathrm{tf}(\mathsf{example}, d_2) \times \mathrm{idf}(\mathsf{example}, D) = 0.429 \times 0.301 \approx 0.129</math>
 
در متن اول که کلمه وجود ندارد جواب صفر است ولی در متن دوم جواب صفر نیست که نشان می‌دهد کلمه <math> \mathsf{example} </math> در متن دوم کلمه‌ای پر اهمیت است.
 
== منابع ==