درک پرسمان
درک پرسمان فرآیند استنباط نیت کاربر موتور جستجو با استفاده از استخراج معنای معنایی کلمات کلیدی جستجوگر است. [۱] روشهای درک پرسمان معمولا قبل از بازیابی و رتبهبندی نتایج توسط موتور جستجو انجام میشود. این به پردازش زبان طبیعی مربوط میشود اما به طور خاص بر درک سوالات جستجو متمرکز است. درک پرسمان در قلب فناوریهایی مانند آمازون الکسا[۲]، سیری اپل[۳]، دستیار گوگل[۴] ، آیبیام واتسون[۵] و مایکروسافت کرتونا[۶] قرار دارد.
روشهاویرایش
توکنسازیویرایش
توکنسازی فرآیندی است که در آن یک رشته متن به کلمات یا عناصر معنادار دیگری به نام نشانهها تقسیم میشود. به طور معمول، نشانهگذاری در سطح کلمه اتفاق میافتد. با این حال، گاهی اوقات دشوار است که منظور از یک کلمه را تعریف کنیم. اغلب یک نشانهساز به اکتشافیهای ساده مانند تقسیم رشته بر روی علائم نگارشی و علائم فضای خالی متکی است. توکنسازی در زبانهای بدون فاصله بین کلمات، مانند چینی و ژاپنی ، چالش برانگیزتر است. توکنسازی متن در این زبانها نیاز به استفاده از الگوریتمهای تقسیم بندی کلمات دارد. [۷]
تصحیح املاویرایش
تصحیح املایی فرآیند شناسایی و تصحیح خودکار اشتباهات املایی در پرسمانهای جستجو است. اکثر الگوریتمهای تصحیح املایی مبتنی بر یک مدل زبانی هستند که احتمال پیشین پرسمان و یک مدل خطا (معمولاً یک مدل کانال نویزی) که احتمال یک غلط املایی خاص را با توجه به پرسمان مورد نظر تعیین میکند. [۸]
بنواژه سازیویرایش
بسیاری از زبانها، اما نه همه، واژهها را برای بازتاب نقش خود در بیانی که در آن ظاهر میشوند، تغییر میدهند: کلمهای مانند «مراقبت کردن» ممکن است علاوه بر شکل پایه یا به عنوان «مراقب میکند»، «مراقبت کرده است»، و غیره ظاهر شود. تفاوت بین اشکال مختلف یک کلمه احتمالا برای مدل درگیر در یک سیستم بازیابی اهمیت چندانی ندارد، و به همین دلیل وظیفه ترکیب کردن اشکال مختلف یک کلمه برای افزایش یادآوری سیستم بازیابی یک تکنیک بالقوه مفید است.
زبانهای دنیا از نظر تنوع صرفی متفاوت هستند، و برای برخی از زبانها روشهای سادهای وجود دارد که یک کلمه را در پرسمان به بُنواژه یا ریشه یا بُن آن تقلیل میدهند. برای برخی از زبانهای دیگر، این عملیات شامل پردازش رشتههای غیر پیشپا افتاده است. یک اسم در انگلیسی معمولا در چهار نوع ظاهر میشود: «cat»، «cat's»، «cats»، «cats'» یا «child»، «child's»، «children»، «children's». زبانهای دیگر تنوع بیشتری دارند. به عنوان مثال، فنلاندی به طور بالقوه حدود ۵۰۰۰ شکل را برای یک اسم نشان میدهد، و برای بسیاری از زبانها، شکلهای عطفی به ضمائم محدود نمیشوند، بلکه هسته خود کلمه را تغییر میدهند.
الگوریتمهای بنیادی، که به نام stemmer نیز شناخته میشوند، معمولا از مجموعهای از قوانین ساده برای حذف پسوندهایی که برای مدلسازی قوانین عطف زبان در نظر گرفته شدهاند، استفاده میکنند.
روشهای پیشرفتهتر، روشهای بُنواژهسازی ، شکلهای عطف یک کلمه را از طریق مجموعههای قوانین پیچیدهتر بر اساس بخشی از گفتار یک کلمه یا وقوع آن در پایگاه دادهای واژگانی ، گروهبندی میکنند، و یک کلمه عطف شده را از طریق جستجو یا یک سری تبدیل به بُنواژه آن تبدیل میکنند. برای مدت طولانی ثابت شده است که عادیسازی مورفولوژیکی به طور کلی به عملکرد بازیابی کمک نمیکند. [۹]
هنگامی که توجه حوزه بازیابی اطلاعات به زبانهایی غیر از انگلیسی جلب شد، مشخص شد که برای برخی از زبانها دستاوردهای آشکاری وجود دارد. [۱۰]
شناسایی موجودیتویرایش
شناسایی موجودیت فرآیند پیدا کردن مکان و طبقهبندی موجودیتها در یک رشته متنی است. شناسایی موجودیتهای اسمی به طور خاص بر موجودیتهای اسمی مانند نام افراد، مکانها و سازمانها تمرکز میکند. علاوه بر این، شناسایی موجودیت شامل شناسایی مفاهیم در پرسمانها است که ممکن است با عبارات چند کلمه ای نشان داده شوند. سیستمهای تشخیص موجودیت معمولا از تکنیکهای زبانی مبتنی بر دستور زبان یا مدلهای یادگیری ماشین آماری استفاده میکنند. [۱۱]
بازنویسی پرسمانویرایش
بازنویسی پرسمان فرآیندی است که به طور خودکار یک پرسمان را مجددا فرموله میکند تا هدف آن را با دقت بیشتری دریافت کند. بسط پرسمان واژههای پرسمان دیگری مانند مترادفها را به منظور بازیابی اسناد بیشتر و در نتیجه افزایش یادآوری اضافه میکند. تسکین پرسمان واژههای پرسمان را حذف میکند تا الزامات یک سند برای مطابقت با پرسمان را کاهش دهد و در نتیجه یادآوری را نیز افزایش دهد. سایر روشهای بازنویسی پرسمان، مانند تبدیل خودکار واژههای متوالی به عبارات و محدود کردن واژههای پرسمان به فیلدهای خاص، هدفشان افزایش دقت است. موتور جستجوی آپاچی لوسن [۱۲] از بازنویسی پرسمان برای تبدیل پرسمانهای پیچیده به پرسمانهای سادهتر، مانند عبارات دارای حروف عام (مثلا پرسما*) به پرسمان دودویی از وهای منطبق از فهرست (مانند پرسمان یا پرسمانها) استفاده میکند. [۱۳]
همچنین ببینیدویرایش
- وبلاگ دانیل تونکلانگ در مورد درک پرسمان
- گزارش کارگاه آموزشی ACM SIGIR 2010 در مورد بازنمایی و درک پرسمان
- مجموعه مقالات کارگاه آموزشی ACM SIGIR 2011 در مورد بازنمایی و درک پرسمان
- کارگاه آموزشی ACM WSDM 2016 در مورد درک پرسمان برای جستجو در همه دستگاهها
- درک پرسمان برای موتورهای جستجو (Yi Chang and Hongbo Deng, Eds. )
منابعویرایش
- ↑ "Association of Computing Machinery (ACM) Special Interest Group on Information Retrieval (SIGIR) 2010 Workshop on Query Representation and Understanding" (PDF).
- ↑ "Amazon AI - Artificial Intelligence".
- ↑ "iOS - Siri - Apple".
- ↑ "How Google uses machine learning in its search algorithms".
- ↑ "When Watson met Siri: Apple's IBM deal could make Siri a lot smarter".
- ↑ "The story of Cortana, Microsoft's Siri killer".
- ↑ "Tokenization".
- ↑ "How to Write a Spelling Corrector".
- ↑ Harman, Donna (1991). "How Effective is Suffixing?". Journal of the American Society for Information Science. 42 (1): 7–15. doi:10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P.
- ↑ Popovic, Mirkoc; Willett, Peter (1981). "The effectiveness of stemming for natural-language access to Slovene textual data". Information Scientist. SAGE. 3 (4).
- ↑ "A Survey of Named Entity Recognition and Classification" (PDF).
- ↑ "Apache Lucene".
- ↑ "Query in Lucene 6.4.1 API documentation".