گسترش پرسش

گسترش (یا بسط) پرسش (QE) فرایند فرمول بندی مجدد یک پرسش برای بهبود عملکرد بازیابی در عملیات بازیابی اطلاعات(Information Retrieval)، به ویژه در زمینه درک پرسش است(Query Understanding).^[۱] در زمینه موتورهای جستجو(Search Engines)، گسترش پرسش شامل ارزیابی ورودی کاربر (چه کلماتی در بخش جستجو نوشته شده‌است، و گاهی انواع دیگر داده‌ها) و گسترش عبارت جستجو برای مطابقت با دیگر اسناد است. گسترش پرسش شامل تکنیک‌هایی مانند:

پیدا کردن مترادف کلمات و همچنین جستجوی برای مترادف آنها
یافتن کلماتی که از نظر معنایی مرتبط هستند (مثلا متضاد، زیرشمولی و فرامشمولی )
یافتن تمام اشکال صرف‌های مختلف کلمات با ریشه‌یابی هر کلمه در عبارت جستجو
رفع غلط‌های املایی و جستجوی خودکار صورت تصحیح شده یا پیشنهاد آن در نتایج
وزن‌دهی مجدد عبارات در پرسش اصلی

گسترش پرسش روشی است که در زمینه علوم کامپیوتر به ویژه در حوزه پردازش زبان طبیعی و بازیابی اطلاعات مورد مطالعه قرار می‌گیرد.

جدال بین دقت و بازیابی

موتورهای جستجو برای افزایش کیفیت نتایج جستجوی کاربر، از گسترش پرسش استفاده می‌کنند. فرض بر این است که کاربران همیشه پرسش‌ها را با استفاده از بهترین عبارات فرموله نمی‌کنند. بهترین دلیل برای این کار می‌تواند این باشد که پایگاه داده شامل عبارات وارد شده کاربر نیست.

با ریشه‌یابی یک عبارت وارد شده توسط کاربر، اسناد بیشتری با عبارت وارد شده مطابقت داده می‌شود، زیرا صرف‌های دیگر عبارت وارد شده توسط کاربر نیز مطابقت داده می‌شود و باعث افزایش بازیابی کل می‌شود. این کار به قیمت کاهش دقت تمام می‌شود. با گسترش یک پرسش برای جستجوی مترادف‌های عبارت وارد شده توسط کاربر، افزایس بازیابی به قیمت کاهش دقت است. این به دلیل ماهیت عبارت محاسبه دقت است، به این ترتیب که یک معیار بازیابی بزرگتر به‌طور ضمنی باعث کاهش دقت می‌شود، زیرا عوامل بازیابی بخشی از مخرج عبارت محاسبهٔ دقت هستند. همچنین نتیجه می‌شود که معیار بازیابی بزرگ‌تر بر کیفیت کلی نتیجه جستجو تأثیر منفی می‌گذارد، با توجه به اینکه بسیاری از کاربران بدون توجه به دقت، نمی‌خواهند در میان انبوهی از نتایج به دنبال نتیجهٔ مطلوب بگردند.

هدف از گسترش پرسش این است که در این صورت، با افزایش معیار بازیابی، دقت نیز می‌تواند به‌طور بالقوه افزایش یابد (به جای کاهش که از عبارت محاسبهٔ دقت می‌توان نتیجه گرفت)، با افزودن صفحاتی در مجموعه نتایج که مرتبط‌تر (با کیفیت بالاتر)، یا حداقل به همان اندازه مرتبط هستند. صفحاتی که پتانسیل مرتبط‌تر بودن با عبارت پرسش کاربر را دارند اما بدون گسترش پرسش در مجموعه نتایج قرار نمی‌گیرند، علی‌رغم ارتباط آن‌ها. در عین حال، بسیاری از موتورهای جستجوی تجاری فعلی از فراوانی کلمه (tf-idf) برای کمک به رتبه‌بندی استفاده می‌کنند.^{^{[نیازمند منبع]}} با رتبه‌بندی کلمات عبارت وارد شده توسط کابر، و صرف‌های دیگر آن کلمات، اسنادی با تراکم بالاتر (فرکانس بالا و تقریبی نزدیک) در نتایج جستجو به قسمت اول لیست نتایج منتقل شوند که منجر به کیفیت بالاترنتایج جستجو در اوایل لیست نتایج می‌شود، علی‌رغم بزرگتر بودن معیار بازیابی در این رویکرد.

روش‌های گسترش پرسش

روش‌های خودکار برای گسترش پرسش در سال ۱۹۶۰ توسط Maron و Kuhns پیشنهاد شد.^[۲] روش‌های گسترش پرسش مدرن یا مبتنی بر تجزیه و تحلیل مجموعه اسناد (سراسری یا محلی)^[۳] یا مبتنی بر فرهنگ لغت یا هستی‌شناسی هستند.^[۴] تحلیل سراسری مجموعه اسناد برای جستجوی روابط بین کلمات استفاده می‌شود. تحلیل محلی به بازخورد ارتباط معرفی شده توسط Rocchio اشاره دارد.^[۵] Rocchio پیشنهاد داد که برخی از اسناد بازیابی شده را به صورت دستی قضاوت کنند و از این اطلاعات بازخورد، برای گسترش پرسش استفاده کنند. از آنجایی که جمع‌آوری قضاوت کاربران می‌تواند چالش‌برانگیز باشد، تنها اولین اسناد بازیابی شده مرتبط در نظر گرفته می‌شوند. به این بازخورد شبه-مرتبط (PRF) گفته می‌شود.^[۶] بازخورد شبه-مرتبط به‌طور متوسط کارآمد است، اما می‌تواند به نتایج برخی از پرسش‌ها،^[۷] به ویژه موارد دشوار آسیب برساند، زیرا اسناد برتر بازیابی شده احتمالاً نامربوط هستند. اسناد شبه-مرتبط برای یافتن عبارات کاندید برای گسترش، که با بسیاری از کلمات پرسش قابلیت ظهور هم‌زمان را داردند، استفاده می‌شود.^[۸] این ایده بیشتر در مدل‌های زبانی فرمال‌سازی شده در ارتباط موقعیتی^[۹] و مدل‌های نزدیکی ارتباط^[۱۰] که فاصله تا کلمات پرسش را در اسناد شبه-مرتبط در نظر می‌گیرد، توسعه یافت. رویکردی دیگر در گسترش پرسش، استفاده از دگرنمایی واژگان است.^[۱۱]

جایگزینی برای گسترش پرسش، گسترش سند است که متن اسناد مورد جستجو را به جای متن پرسش دوباره فرموله می‌کند.^[۱۲]

جستارهای وابسته

کتابخانه‌های نرم‌افزاری

QueryTermAnalyzer منبع باز، #C. بر پایه یادگیری ماشین وزن عبارات پرسش و آنالیز مترادف برای گسترش پرسش
LucQE - منبع باز، جاوا. یک چارچوب همراه با چندین پیاده‌سازی را ارائه می‌دهد که امکان انجام گسترش پرسش را با استفاده از Apache Lucene فراهم می‌کند.
Xapian یک کتابخانه جستجوی منبع باز است که شامل پشتیبانی از گسترش پرسش است
ReQue منبع باز، پایتون. یک چارچوب نرم‌افزاری قابل تنظیم و مجموعه‌ای از مجموعه داده‌های استاندارد طلا برای آموزش و ارزیابی روش‌های تحت نظارت برای گسترش پرسش.^[۱۳]^[۱۴]

منابع

استناد

↑ Vectomova, Olga; Wang, Ying (2006). "A study of the effect of term proximity on query expansion". Journal of Information Science. 32 (4): 324–333. CiteSeerX 10.1.1.552.5987. doi:10.1177/0165551506065787.
↑ Maron, M. E. and Kuhns, J. L. 1960. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the ACM 7, 3, 216–244.
↑ C. Carpineto and G. Romano. A survey of automatic query expansion in information retrieval. ACM Computing Surveys, 44(1):1-50, Jan. 2012.
↑ J. Bhogal, A. Macfarlane, and P. Smith. A review of ontology based query expansion. Inf. Process. Manage. , 43(4):866-886, July 2007.
↑ J. Rocchio. Relevance feedback in information retrieval. In The SMART Retrieval System, p. 313-323. 1971.
↑ C. Buckley. Automatic query expansion using SMART: TREC 3. In Proceedings of The third Text REtrieval Conference (TREC-3). NIST Special Publication, p. 69-80. National Institute of Standards and Technology, 1995.
↑ G. Amati, C. Carpineto, and G. Romano. Query difficulty, robustness, and selective application of query expansion. Advances in Information Retrieval, p. 127-137, 2004.
↑ J. Xu and W. B. Croft. Query expansion using local and global document analysis. In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval, pages 4-11. ACM, 1996.
↑ Y. Lv and C. Zhai. Positional relevance model for pseudo-relevance feedback. In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, page 579-586. ACM, 2010.
↑ L. Ermakova, J. Mothe, and E. Nikitina. 2016. Proximity relevance model for query expansion. In Proceedings of the 31st Annual ACM Symposium on Applied Computing (SAC '16). ACM, New York, NY, USA, 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
↑ S. Kuzi, A. Shtok, and O. Kurland. 2016. Query Expansion Using Word Embeddings. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management (CIKM '16). ACM, New York, NY, USA, 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
↑ Lin. "Pretrained Transformers for Text Ranking: BERT and Beyond". {{cite arxiv}}: |arxiv= required (help)
↑ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: A Configurable Workflow and Dataset Collection for Query Refinement. CIKM 2020: 3165-3172
↑ Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; An Extensible Toolkit of Query Refinement Methods and Gold Standard Dataset Generation. In Advances in Information Retrieval: 43rd European Conference on IR Research (ECIR'21), 2021.

منابع

D. Abberley, D. Kirby, S. Renals، و T. Robinson، سیستم بازیابی اخبار پخش THISL. در Proc. کارگاه آموزشی ESCA ETRW دسترسی به اطلاعات در صوتی گفتاری، (کمبریج)، ص. ۱۴–۱۹، ۱۹۹۹. بخش گسترش پرسش و جو - مختصر و مروری ریاضی.
R. Navigli, P. Velardi. تجزیه و تحلیل استراتژی‌های گسترش پرسش مبتنی بر هستی‌شناسی. Proc. کارگاه آموزشی استخراج متن تطبیقی (ATEM 2003)، در چهاردهمین کنفرانس اروپایی در مورد یادگیری ماشین (ECML 2003)، Cavtat-Dubrovnik، کرواسی، ۲۲–۲۶ سپتامبر ۲۰۰۳، pp. 42-49 - تجزیه و تحلیل روش‌های گسترش پرسش با تکیه بر WordNet به عنوان هستی‌شناسی مرجع.
Y. Qiu و HP Frei. گسترش پرسش مبتنی بر مفهوم در مجموعه مقالات SIGIR-93، شانزدهمین کنفرانس بین‌المللی ACM در مورد تحقیق و توسعه در بازیابی اطلاعات، پیتسبورگ، انجمن SIGIR, ACM Press، ژوئن ۱۹۹۳ - سند آکادمیک در مورد یک روش خاص برای گسترش پرسش
Efthimis N. Efthimiadis. گسترش پرسش در: مارتا ای. ویلیامز (ویرایش), بررسی سالانه سیستم‌های اطلاعات و فناوری (ARIST), v31, pp 121–187, 1996 - مقدمه‌ای برای مراجعان غیرحرفه‌ای.

[1] Vectomova, Olga; Wang, Ying (2006). "A study of the effect of term proximity on query expansion". Journal of Information Science. 32 (4): 324–333. CiteSeerX 10.1.1.552.5987. doi:10.1177/0165551506065787.

[2] Maron, M. E. and Kuhns, J. L. 1960. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the ACM 7, 3, 216–244.

[3] C. Carpineto and G. Romano. A survey of automatic query expansion in information retrieval. ACM Computing Surveys, 44(1):1-50, Jan. 2012.

[4] J. Bhogal, A. Macfarlane, and P. Smith. A review of ontology based query expansion. Inf. Process. Manage. , 43(4):866-886, July 2007.

[5] J. Rocchio. Relevance feedback in information retrieval. In The SMART Retrieval System, p. 313-323. 1971.

[6] C. Buckley. Automatic query expansion using SMART: TREC 3. In Proceedings of The third Text REtrieval Conference (TREC-3). NIST Special Publication, p. 69-80. National Institute of Standards and Technology, 1995.

[7] G. Amati, C. Carpineto, and G. Romano. Query difficulty, robustness, and selective application of query expansion. Advances in Information Retrieval, p. 127-137, 2004.

[8] J. Xu and W. B. Croft. Query expansion using local and global document analysis. In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval, pages 4-11. ACM, 1996.

[9] Y. Lv and C. Zhai. Positional relevance model for pseudo-relevance feedback. In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, page 579-586. ACM, 2010.

[10] L. Ermakova, J. Mothe, and E. Nikitina. 2016. Proximity relevance model for query expansion. In Proceedings of the 31st Annual ACM Symposium on Applied Computing (SAC '16). ACM, New York, NY, USA, 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696

[11] S. Kuzi, A. Shtok, and O. Kurland. 2016. Query Expansion Using Word Embeddings. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management (CIKM '16). ACM, New York, NY, USA, 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876

[12] Lin. "Pretrained Transformers for Text Ranking: BERT and Beyond". {{cite arxiv}}: |arxiv= required (help)

[13] Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: A Configurable Workflow and Dataset Collection for Query Refinement. CIKM 2020: 3165-3172

[14] Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; An Extensible Toolkit of Query Refinement Methods and Gold Standard Dataset Generation. In Advances in Information Retrieval: 43rd European Conference on IR Research (ECIR'21), 2021.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]