فراوانی وزنی تیاف-آیدیاف: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
بدون خلاصۀ ویرایش برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
||
خط ۱:
'''فراوانی وزنی تیاف-آیدیاف''' {{انگلیسی|tf–idf weight}} مخّففِ term frequency - inverse document frequency یا ''فراوانی کلمه - معکوس فراوانی متن'' است.<ref name=":2">{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=http://nbn-resolving.de/urn:nbn:de:bsz:352-0-311312|format=Submitted manuscript|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012}}</ref> در این شیوه به هر کلمهای در هر متن یکوزن بر اساس فراوانی آن در متن و فراوانی کلمه در سایر متونِ [[پیکره متنی]] داده میشود.<ref name=":0">{{Cite book|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf|title=Mining of Massive Datasets|last=Rajaraman|first1=A.|last2=Ullman|first2=J.D.|year=2011|isbn=978-1-139-05845-2|pages=1–17|chapter=Data Mining|doi=10.1017/CBO9781139058452.002}}</ref> در واقع هدف این سیستمِ وزندهی، نشاندادن اهمیت کلمه در [[سند (مدرک)|متن]] است. این مسئله کاربردهای بسیاری در [[بازیابی اطلاعات]] و [[متنکاوی|متن کاوی]] دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش مییابد، اما توسط تعداد متونی که کلمه در آن ظاهر میشود کنترل میشود. به این معنی که اگر کلمهای در بسیاری از متون ظاهر شود احتمالا کلمهای متداول است و ارزش چندانی در ارزیابی متن ندارد.<ref name=":0" /> امروزه بیش از ۸۳ درصد از [[سامانه توصیهگر|سامانههای توصیهگر]] در کتابخانههای دیجیتال از این روش وزندهی کلمات استفاده میکنند.<ref
== تعریف ریاضی ==
|