فراوانی وزنی تی‌اف-آی‌دی‌اف: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Hamid Hassani (بحث | مشارکت‌ها)
جز ویرایش به‌وسیلهٔ ابرابزار:
Hamid Hassani (بحث | مشارکت‌ها)
ویرایش و ویکی‌سازی موردی
برچسب: افزودن پیوند بیرونی به جای ویکی‌پیوند
خط ۱۰:
</math> و تابع معکوس فراوانی یعنی <math>
idf
</math> که در پایین تعریف شده‌اند.<ref name=":1">{{cite journal|last=Luhn|first=Hans Peter|last2=|first2=|date=1957|title=A Statistical Approach to Mechanized Encoding and Searching of Literary Information|url=http://web.stanford.edu/class/linguist289/luhn57.pdf|journal=IBM Journal of Research and Development|volume=1|issue=4|pages=309-317|doi=10.1147/rd.14.0309|access-date=2 March 2015|quote=There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.}}</ref>
 
=== تابع فراوانی کلمه (tf یا Term Frequency) ===
خط ۱۹:
</math> در متن <math>
d
</math> اتفاق افتاده‌است،افتاده است، تابع فراوانی کلمه یا <math>
tf(t,d)
</math> به چند طریق می‌تواند تعریف شود:<ref name=":1" />:
 
* فراوانی خام:
**<math>
tf(t,d)= f_{t,d}
</math>
* فراوانی خامِ نرمال‌سازی شدهنرمال‌سازی‌شده:
**<math>
tf(t,d)= \frac{f_{t,d}}{\sum_{s \in d} f_{s,d}}
</math>
* فراوانی [[تابع بولی|بولی]]:
**<math>
tf(t,d)= 1\left(f_{t,d}>0\right)
</math>
** اگر کلمه <math>
f_{t,d}
</math>برزگتر از صفر باشد <math>
tf(t,d)
</math>یک است و در غیر این صورت صفر.
* فراوانی لگاریتمی:
**<math>
سطر ۴۸ ⟵ ۴۹:
 
این موارد را می‌توان در جدول پایین به صورت خلاصه نمایش داد:
 
<br />
 
{| class="wikitable" style="float: right; margin-left: 0; margin-right: 0; margin-top: 0;"
سطر ۶۸ ⟵ ۷۱:
|}
 
<br /><br />
=== تابع معکوس فراوانی متن (idf یا Inverse document frequency) ===
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
=== تابع معکوس فراوانی متن (idf یا Inverse document frequency) ===
idf: معیاری است برای میزان کلماتی که در [[پیکره متنی]] متداول هستند و معمولاً تکرار می‌شوند.<ref name=":3">{{Cite journal|last=Spärck Jones|first=K.|authorlink=Karen Spärck Jones|year=1972|title=A Statistical Interpretation of Term Specificity and Its Application in Retrieval|journal=Journal of Documentation|volume=28|pages=11–21|citeseerx=10.1.1.115.8343|doi=10.1108/eb026526|pmc=|pmid=}}</ref> طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون در [[پیکره متنی]] بر تعداد متونی که شامل کلمه متداول استفاده می‌کنیم. به زبان ریاضی این تابع را با <math> idf(t, D) = \log {N}/{|\{d \in D: t \in d\}|}</math> نشان می‌دهیم. در اینجا <math>N = {|D|}</math>یعنی تعداد کل متنها در [[پیکره متنی]] و <math> |\{d \in D: t \in d\}| </math> تعداد متن‌هایی را نمایش می‌دهد که کلمه <math>t</math> در آن ظاهر شده‌است. برای مثال: فرض کنیم در [[پیکره متنی]] ما هزار متن وجود داشته باشد. اگر در تمام این هزار متن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم هزار تقسیم بر هزار می‌شود صفر. یعنی حتماً این کلمه جزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در صد متن اتفاق افتاده باشد جواب می‌شود لگاریتم ده که حاصل آن یک است، پس ضریب یک می‌گیرد.<ref name="understanding">{{Cite journal|last1=Robertson|first1=S.|year=2004|title=Understanding inverse document frequency: On theoretical arguments for IDF|journal=Journal of Documentation|volume=60|issue=5|pages=503–520|doi=10.1108/00220410410560582|authorlink1=Stephen Robertson (computer scientist)}}</ref> هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن <math> idf</math> کوچکتر می‌شود؛ البته چون ممکن است کلمه‌ای اصلاً در هیچ متنی تکرار نشده باشد و مخرج صفر شود مخرج را معمولاً با یک جمع می‌کنیم. البته تابع معکوس فراوانی می‌تواند فرم‌های متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده‌است.<ref name=":3" />
<br />
 
{| class="wikitable" style="float: right; margin-left: 0; margin-right: 0; margin-top: 0;"
سطر ۷۶ ⟵ ۱۰۱:
! idf weight (<math>n_t = |\{d \in D: t \in d\}| </math>)
|-
| unary || ۱1
|-
| inverse document frequency || <math> \log \frac {N} {n_t} = - \log \frac {n_t} {N} </math>
سطر ۸۷ ⟵ ۱۱۲:
|}
 
 
=== فراوانی وزنی نهائی (tf-idf) ===
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
=== فراوانی وزنی نهائینهایی (tf-idf) ===
فراوانی وزنی تی‌اف-آی‌دی‌اف که وزن نهایی کلمات در متون است از ضرب تابع فراوانی کلمه یعنی <math>
tf
سطر ۱۰۴ ⟵ ۱۴۹:
|-
| 3 || <math> (1 + \log f_{t,d}) \cdot \log \frac {N} {n_t} </math> || <math> (1 + \log f_{t,q}) \cdot \log \frac {N} {n_t} </math>
|}{{سخ}}
|}
 
== مثال ==
فرض کنیم <math> D </math> [[پیکره متنی]] ما باشد و فقط دو متن داشته باشد به این شکل: <math> D = \{d_1 = \mathsf{'this\,\,is\,\,my\,\,main\,\,sample'}, \,\,d_2 = \mathsf{'previous\,\,election\,\,results\,\,are\,\,different\,\,from\,\,this\,\,election\,\,and\,\,last\,\,election'} \} </math>
 
ابتدا تابع فراوانی کلمه <math> \mathsf{this} </math> را در هر دو متن حساب می‌کنیممیکنیم:
 
: <math> \mathrm{tf}(\mathsf{this}, d_{1}) = \frac{1}{5} = 0.2 </math>
سطر ۱۱۵ ⟵ ۱۵۹:
</math>
 
سپس تابع معکوس فراوانی این کلمه را برای پیکرهپیکرهٔ متنی <math> D </math> محاسبه می‌کنیم، جواب صفر می‌شود:
 
: <math> \mathrm{idf}(\mathsf{this}, D) = \log \left (\frac{2}{2} \right ) = 0 </math>
سطر ۱۲۴ ⟵ ۱۶۸:
:<math> \mathrm{tfidf}(\mathsf{this}, d_{2}, D) = 0.091 \times 0 = 0 </math>
 
کلمه <math> \mathsf{election} </math> را هم به همان شکل حساب می‌کنیممیکنیم:
 
:<math> \mathrm{tf}(\mathsf{election}, d_{1}) = \frac{0}{5} = 0 </math>
سطر ۱۳۰ ⟵ ۱۷۴:
:<math> \mathrm{idf}(\mathsf{election}, D) = \log \left (\frac{2}{1} \right ) = 0.301 </math>
 
جواب نهائی برای کلمه <math> \mathsf{election} </math> در دو متن برابر خواهد بود با:
 
:<math>\mathrm{tfidf}(\mathsf{election}, d_1, D) = \mathrm{tf}(\mathsf{election}, d_1) \times \mathrm{idf}(\mathsf{election}, D) = 0 \times 0.301 = 0</math>
:<math>\mathrm{tfidf}(\mathsf{election}, d_2, D) = \mathrm{tf}(\mathsf{election}, d_2) \times \mathrm{idf}(\mathsf{election}, D) = 0.273 \times 0.301 \approx 0.083</math>
 
در متن اول که کلمه وجود نداردندارد، جواب صفر استاست، ولی در متن دوم جواب صفر نیست که نشان می‌دهد کلمه <math> \mathsf{election} </math> در متن دوم کلمه‌ای پراهمیت است.
 
== جستارهای وابسته ==
 
* [[پردازش زبان‌های طبیعی|پردازش زبانهای طبیعی]]
* [[زبان‌شناسی پیکره‌ای|زبانشناسی پیکره‌ای]]
* [[متن‌کاوی|متن کاوی]]
* [[برچسب‌زنی اجزای کلام|برچسب زنی اجزای کلام]]
سطر ۱۴۵ ⟵ ۱۹۰:
 
== منابع ==
{{پانویس|چپ‌چین=بله}}
* [[http://en:.wikipedia.org/wiki/Tf–idf| مقاله در ویکی‌پدیای انگلیسی]]
 
{{رایانه-خرد}}