بازیابی سند

بازیابی سند (انگلیسی: Document retrieval)، رساندن مدرک یا سند ذیربط در موضوعی خاص به متقاضی آن است.

بازیابی سند

بازیابی سند به عنوان تطبیق برخی از پرس و جوهای اعلام شده کاربر با مجموعه ای از رکوردهای متن آزاد تعریف می‌شود.

بازیابی سند گاهی به عنوان شاخه ای از بازیابی متن نامیده می‌شود. بازیابی متن شاخه ای از بازیابی اطلاعات است که در آن اطلاعات عمدتاً به صورت متن ذخیره می‌شود. پایگاه داده‌های متنی به لطف رایانه شخصی غیرمتمرکز شدند. امروزه بازیابی متن یک حوزه مهم مطالعه است، زیرا اساس اساسی همه موتورهای جستجوی اینترنتی است.

پایگاه داده

یک سیستم بازیابی اسناد شامل یک پایگاه داده از اسناد، یک الگوریتم طبقه‌بندی برای ایجاد یک فهرست متن کامل و یک رابط کاربری برای دسترسی به پایگاه داده‌است.

یک سیستم بازیابی اسناد دو وظیفه اصلی دارد:

اسناد مربوط به درخواست‌های کاربر را بیابید
نتایج تطبیق را ارزیابی کنید و با استفاده از الگوریتم‌هایی مانند PageRank، آنها را بر اساس ارتباط مرتب کنید.

موتورهای جستجوی اینترنتی کاربردهای کلاسیک بازیابی اسناد هستند. اکثریت قریب به اتفاق سیستم‌های بازیابی که در حال حاضر استفاده می‌شوند، از سیستم‌های ساده بولی گرفته تا سیستم‌هایی با استفاده از تکنیک‌های پردازش آماری یا زبان طبیعی را شامل می‌شوند.

تغییرات

دو دسته اصلی از طرحواره‌های نمایه سازی برای سیستم‌های بازیابی اسناد وجود دارد: نمایه سازی مبتنی بر فرم (یا مبتنی بر کلمه)، و نمایه سازی مبتنی بر محتوا. طرح طبقه‌بندی اسناد (یا الگوریتم نمایه سازی).

فرم

الگوریتم درخت پسوند نمونه ای برای نمایه سازی مبتنی بر فرم است.

پاب‌مد

موتور جستجوی PubMed^[۱] در جستجوی موضوعات از طریق مقایسه کلمات از عنوان اسناد، چکیده، و اصطلاحات MeSH با استفاده از یک الگوریتم وزنی کلمه کار می‌کند.^[۲]

جستارهای وابسته

منابع

↑ Kim W, Aronson AR, Wilbur WJ (2001). "Automatic MeSH term assignment and quality assessment". Proc AMIA Symp: 319–23. PMC 2243528. PMID 11825203.
↑ Lin J1, Wilbur WJ (Oct 30, 2007). "PubMed related articles: a probabilistic topic-based model for content similarity". BMC Bioinformatics. 8: 423. doi:10.1186/1471-2105-8-423. PMC 2212667. PMID 17971238.

[1] Kim W, Aronson AR, Wilbur WJ (2001). "Automatic MeSH term assignment and quality assessment". Proc AMIA Symp: 319–23. PMC 2243528. PMID 11825203.

[2] Lin J1, Wilbur WJ (Oct 30, 2007). "PubMed related articles: a probabilistic topic-based model for content similarity". BMC Bioinformatics. 8: 423. doi:10.1186/1471-2105-8-423. PMC 2212667. PMID 17971238.

[۱]

[۲]