درک پرسمان

درک پرسمان فرآیند استنباط نیت کاربر موتور جستجو با استفاده از استخراج معنای معنایی کلمات کلیدی جستجوگر است. ^[۱] روش‌های درک پرسمان معمولا قبل از بازیابی و رتبه‌بندی نتایج توسط موتور جستجو انجام می‌شود. این به پردازش زبان طبیعی مربوط می‌شود اما به طور خاص بر درک سوالات جستجو متمرکز است. درک پرسمان در قلب فناوری‌هایی مانند آمازون الکسا^[۲]، سیری اپل^[۳]، دستیار گوگل^[۴] ، آی‌بی‌ام واتسون^[۵] و مایکروسافت کرتونا^[۶] قرار دارد.

روش‌ها

توکن‌سازی

توکن‌سازی فرآیندی است که در آن یک رشته متن به کلمات یا عناصر معنادار دیگری به نام نشانه‌ها تقسیم می‌شود. به طور معمول، نشانه‌گذاری در سطح کلمه اتفاق می‌افتد. با این حال، گاهی اوقات دشوار است که منظور از یک کلمه را تعریف کنیم. اغلب یک نشانه‌ساز به اکتشافی‌های ساده مانند تقسیم رشته بر روی علائم نگارشی و علائم فضای خالی متکی است. توکن‌سازی در زبان‌های بدون فاصله بین کلمات، مانند چینی و ژاپنی ، چالش برانگیزتر است. توکن‌سازی متن در این زبان‌ها نیاز به استفاده از الگوریتم‌‌های تقسیم بندی کلمات دارد. ^[۷]

تصحیح املا

تصحیح املایی فرآیند شناسایی و تصحیح خودکار اشتباهات املایی در پرسمان‌های جستجو است. اکثر الگوریتم‌های تصحیح املایی مبتنی بر یک مدل زبانی هستند که احتمال پیشین پرسمان و یک مدل خطا (معمولاً یک مدل کانال نویزی) که احتمال یک غلط املایی خاص را با توجه به پرسمان مورد نظر تعیین می‌کند. ^[۸]

بن‌واژه سازی

‍بسیاری از زبان‌ها، اما نه همه، واژه‌ها را برای بازتاب نقش خود در بیانی که در آن ظاهر می‌شوند، تغییر می‌دهند: کلمه‌ای مانند «مراقبت کردن» ممکن است علاوه بر شکل پایه یا به عنوان «مراقب می‌کند»، «مراقبت کرده است»، و غیره ظاهر شود. تفاوت بین اشکال مختلف یک کلمه احتمالا برای مدل درگیر در یک سیستم بازیابی اهمیت چندانی ندارد، و به همین دلیل وظیفه ترکیب کردن اشکال مختلف یک کلمه برای افزایش یادآوری سیستم بازیابی یک تکنیک بالقوه مفید است.

زبان‌های دنیا از نظر تنوع صرفی متفاوت هستند، و برای برخی از زبان‌ها روش‌های ساده‌ای وجود دارد که یک کلمه را در پرسمان به بُن‌واژه یا ریشه یا بُن آن تقلیل می‌دهند. برای برخی از زبان‌های دیگر، این عملیات شامل پردازش رشته‌های غیر پیش‌پا افتاده است. یک اسم در انگلیسی معمولا در چهار نوع ظاهر می‌شود: «cat»، «cat's»، «cats»، «cats'» یا «child»، «child's»، «children»، «children's». زبان‌های دیگر تنوع بیشتری دارند. به عنوان مثال، فنلاندی به طور بالقوه حدود ۵۰۰۰ شکل را برای یک اسم نشان می‌دهد، و برای بسیاری از زبان‌ها، شکل‌های عطفی به ضمائم محدود نمی‌شوند، بلکه هسته خود کلمه را تغییر می‌دهند.

الگوریتم‌های بنیادی، که به نام stemmer نیز شناخته می‌شوند، معمولا از مجموعه‌ای از قوانین ساده برای حذف پسوندهایی که برای مدل‌سازی قوانین عطف زبان در نظر گرفته شده‌اند، استفاده می‌کنند.

روش‌های پیشرفته‌تر، روش‌های بُن‌واژه‌سازی ، شکل‌های عطف یک کلمه را از طریق مجموعه‌های قوانین پیچیده‌تر بر اساس بخشی از گفتار یک کلمه یا وقوع آن در پایگاه داده‌ای واژگانی ، گروه‌بندی می‌کنند، و یک کلمه عطف شده را از طریق جستجو یا یک سری تبدیل به بُن‌واژه آن تبدیل می‌کنند. برای مدت طولانی ثابت شده است که عادی‌سازی مورفولوژیکی به طور کلی به عملکرد بازیابی کمک نمی‌کند. ^[۹]

هنگامی که توجه حوزه بازیابی اطلاعات به زبان‌هایی غیر از انگلیسی جلب شد، مشخص شد که برای برخی از زبان‌ها دستاوردهای آشکاری وجود دارد. ^[۱۰]

شناسایی موجودیت

شناسایی موجودیت فرآیند پیدا کردن مکان و طبقه‌بندی موجودیت‌ها در یک رشته متنی است. شناسایی موجودیت‌های اسمی به طور خاص بر موجودیت‌های اسمی مانند نام افراد، مکان‌ها و سازمان‌ها تمرکز می‌کند. علاوه بر این، شناسایی موجودیت شامل شناسایی مفاهیم در پرسمان‌ها است که ممکن است با عبارات چند کلمه ای نشان داده شوند. سیستم‌های تشخیص موجودیت معمولا از تکنیک‌های زبانی مبتنی بر دستور زبان یا مدل‌های یادگیری ماشین آماری استفاده می‌کنند. ^[۱۱]

بازنویسی پرسمان

بازنویسی پرسمان فرآیندی است که به طور خودکار یک پرسمان را مجددا فرموله می‌کند تا هدف آن را با دقت بیشتری دریافت کند. بسط پرسمان واژه‌های پرسمان دیگری مانند مترادف‌ها را به منظور بازیابی اسناد بیشتر و در نتیجه افزایش یادآوری اضافه می‌کند. تسکین پرسمان واژه‌های پرسمان را حذف می‌کند تا الزامات یک سند برای مطابقت با پرسمان را کاهش دهد و در نتیجه یادآوری را نیز افزایش دهد. سایر روش‌های بازنویسی پرسمان، مانند تبدیل خودکار واژه‌های متوالی به عبارات و محدود کردن واژه‌های پرسمان به فیلدهای خاص، هدف‌شان افزایش دقت است. موتور جستجوی آپاچی لوسن ^[۱۲] از بازنویسی پرسمان برای تبدیل پرسمان‌های پیچیده به پرسمان‌های ساده‌تر، مانند عبارات دارای حروف عام (مثلا پرسما*) به پرسمان دودویی از وهای منطبق از فهرست (مانند پرسمان یا پرسمان‌ها) استفاده می‌کند. ^[۱۳]

همچنین ببینید

منابع

↑ "Association of Computing Machinery (ACM) Special Interest Group on Information Retrieval (SIGIR) 2010 Workshop on Query Representation and Understanding" (PDF).
↑ "Amazon AI - Artificial Intelligence".
↑ "iOS - Siri - Apple".
↑ "How Google uses machine learning in its search algorithms".
↑ "When Watson met Siri: Apple's IBM deal could make Siri a lot smarter".
↑ "The story of Cortana, Microsoft's Siri killer".
↑ "Tokenization".
↑ "How to Write a Spelling Corrector".
↑ Harman, Donna (1991). "How Effective is Suffixing?". Journal of the American Society for Information Science. 42 (1): 7–15. doi:10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P.
↑ Popovic, Mirkoc; Willett, Peter (1981). "The effectiveness of stemming for natural-language access to Slovene textual data". Information Scientist. SAGE. 3 (4).
↑ "A Survey of Named Entity Recognition and Classification" (PDF).
↑ "Apache Lucene".
↑ "Query in Lucene 6.4.1 API documentation".

[1] "Association of Computing Machinery (ACM) Special Interest Group on Information Retrieval (SIGIR) 2010 Workshop on Query Representation and Understanding" (PDF).

[2] "Amazon AI - Artificial Intelligence".

[3] "iOS - Siri - Apple".

[4] "How Google uses machine learning in its search algorithms".

[5] "When Watson met Siri: Apple's IBM deal could make Siri a lot smarter".

[6] "The story of Cortana, Microsoft's Siri killer".

[7] "Tokenization".

[8] "How to Write a Spelling Corrector".

[9] Harman, Donna (1991). "How Effective is Suffixing?". Journal of the American Society for Information Science. 42 (1): 7–15. doi:10.1002/(SICI)1097-4571(199101)42:1<7::AID-ASI2>3.0.CO;2-P.

[10] Popovic, Mirkoc; Willett, Peter (1981). "The effectiveness of stemming for natural-language access to Slovene textual data". Information Scientist. SAGE. 3 (4).

[11] "A Survey of Named Entity Recognition and Classification" (PDF).

[12] "Apache Lucene".

[13] "Query in Lucene 6.4.1 API documentation".

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]