بازیابی اطلاعات: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
1 ویرایش Houman 2h (بحث) خنثی‌سازی شد: تبلیغ نکنید. (توینکل)
FreshmanBot (بحث | مشارکت‌ها)
جز اصلاح فاصله مجازی + اصلاح نویسه با استفاده از AWB
خط ۲:
'''بازیابی اطلاعات''' {{انگلیسی|Information Retrieval}} به فناوری و دانش پیچیدهٔ جستجو و استخراج [[اطلاعات]]، [[داده‌ها]]، [[فراداده]]‌ها در انواع گوناگون [[منابع اطلاعاتی]] مثل بانک [[اسناد]]، مجموعه‌ای از [[تصویر|تصاویر]]، و [[وب جهان‌گستر|وب]] گفته می‌شود.
 
با افزایش روزافزون حجم اطلاعات ذخیره شده در منابع قابل دسترس و گوناگون، فرایند بازیابی و استخراج اطلاعات اهمیت ویژه‌ای یافته استیافته‌است. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند [[متن]]، [[تصویر]]، [[صوت]] و [[ویدئو]] باشد. بر خلاف [[پایگاه داده]]‌ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند [[وب]] و زیرمجموعه‌های آن مانند [[شبکه‌های اجتماعی]] از ساختار مشخصی پیروی نمی‌کنند و عموماً دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات در چنین شرایطی، کمک به کاربر برای یافتن اطلاعات مورد نظر در انبوهی از اطلاعات ساختارنایافته استساختارنایافته‌است.
 
جستجوگرهای [[گوگل]]، [[یاهو]] و [[بینگ]] سه نمونه از پراستفاده‌ترین سیستم‌های بازیابی اطلاعات هستند که به کاربران برای بازیابی اطلاعات متنی، تصویری، ویدئویی و غیره کمک می‌کنند.
 
«بازیابی اطلاعات» در برخی منابع فارسی به اشتباه به جای [[ذخیره و بازیابی داده‌ها]] که به معنای [[دانش شناخت]] [[رسانه‌های ذخیره‌سازی]] فیزیکی است، به کار رفته استرفته‌است.
 
== مدل‌سازی اطلاعات ==
مدلسازی مفهومی اطلاعات، یکی از فنون تجزیه و تحلیل و تشریح اطلاعات مورد نیاز کاربران سیستم است. در تجزیه و تحلیل اطلاعات باید ذهن خود را بر شناخت مفهومی اطلاعات متمرکز ساخت. در تشریح [[ماهیت اطلاعات]] باید از جملات موجز، دقیق و خوانا استفاده کرد. از آنجایی که تشریح اطلاعات، راهنمای طراحی [[پایگاه اطلاعاتی]] بشماربه‌شمار می‌آید باید برای کاربران، برنامه نویسان و سایر متخصصان فنی خوانا باشد. زیرا راهنمای طراحی پایگاه اطلاعاتی بشماربه‌شمار می‌آید.
از آنجایی که هر سیستم کاربران متعددی دارد و آنان نیز از داده و بازداده‌های گوناگون استفاده می‌کنند و همچنین تحلیلگر معمولاً با سیستم آشنا نیست و ضمن تجزیه و تحلیل و تشریح با آن آشنا می‌شود تشریح اطلاعات برای سیستم دشوار است. تشریح اطلاعات برای پاسخگویی به نیازهای «فرایند سیستم» باید به صورت تفضیلی صورت پذیرد و در عین حال از کلیتی برخوردار باشد که به تشکیل یک پایگاه اطلاعاتی منجر شود و نیازهای کلی سازمان را در بعد اطلاعات برآورده سازد؛ و چون تا این مرحله به اندازه کافی کار طراحی آسان شده استشده‌است تحلیلگر باید تشریح اطلاعات را در محدوده زمانی و بودجه‌ای پروژه مکتوب نماید.
اکنون این پرسش ممکن است مطرح شودکه چرا «نمودار جریان اطلاعات» شرح کاملی از اطلاعات ارائه نمی‌دهد؟ پاسخ این است که نمودار جریان اطلاعات تنها چگونگی بکارگیری اطلاعات در فرایندهای سیستم را نشان می‌دهد و روابط مورد نیاز میان موجودیتهای سازمان را به نمایش نمی‌گذارد. بدین ترتیب پایگاه اطلاعاتی مبتنی بر یک نمودار جریان اطلاعات نمی‌تواند از شاخص روانی سازمانی برخوردار باشد.
از سوی دیگر، مدل مفهومی اطلاعات، تحلیلگر را تشویق می‌نماید تا تحلیل اطلاعات را بر مبنای نیازهای سازمان و از دید کاربرای یا نحوه تجسم ذهنی آنان قرار دهد. شرح تفصیلی نیازهای اطلاعاتی سیستم مانند بازداده‌ها و غیره بعداً به مدل افزوده خواهد شد. از آنجایی که مدل مفهومی، اطلاعات را از دید سازمان تشریح می‌کند نه از دید فرایندهای تفصیلی سیستم بنابراین پایگاه اطلاعاتی حاصل از آن با نیازهای اطلاعاتی سازمان قابلیت انطباق بیشتری خواهد داشت. تشریح اطلاعات با استفاده از مدل مفهومی مستلزم موارد زیر است:
خط ۱۹:
نخستین گام در بازیابی اطلاعات، مدل‌سازی اطلاعات و توصیف و تعریف ارتباط موجود میان اجزاء منبع اطلاعاتی با نیازهای اطلاعاتی کاربر است. سه مدل مهم در حوزهٔ بازیابی اطلاعات عبارت است از:
* [[مدل دودویی]] (یا دوگانی): در مدل دودویی (یا دوگانی) هر [[سند (مدرک)|سند]] (''document'') به صورت کیفی پر از کلمات (''bag of words'') در نظر گرفته می‌شود.
* [[مدل برداری|مدل بُرداری]]: در مدل بُرداری، هر سند به صورت برداری از کلمات در یک [[فضای برداری]] چند بُعدی در نظر گرفته می‌شود که ابعاد آنراآن را کلمات تشکیل می‌دهند. مولفه‌های این بردار سند، در واقع وزن‌هایی هستند که نشان می‌دهند هر یک از کلمات چقدر در متمایز کردن آن سند دخیل هستند.
* [[مدل احتمالاتی]]: در مدل احتمالاتی، به هر سند [[احتمال|احتمالی]] اختصاص داده می‌شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان می‌کند.
 
خط ۲۶:
 
=== مدل دودویی ===
در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای [[عطف منطقی|AND]] و [[یای انحصاری|OR]] و [[نقیض|NOT]] بیان می‌شود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی می‌شود. مثلاً اگر نیاز اطلاعاتی به صورت ''Iran AND Oil'' بیان شود، تمامی اسنادی که هردو کلمهٔ ''Iran'' و ''Oil'' را دربردارند به کاربر نمایش داده می‌شوند. در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری برای سنجش میزان (درجهٔ) ربط وجود ندارد. مثلاً دو سند را در نظر بگیرید که یکی تماماً دربارهٔ ایران و نفت بحث می‌کند، و دیگری در مورد [[اقتصاد جهانی]] صحبت می‌کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده استکرده‌است. سیستمی که از مدل دودویی استفاده کرده تفاوتی بین این دو سند قائل نخواهد شد. در صورتیکهصورتی‌که در واقع سند اول بیشتر به نیاز کاربر مربوط است.
 
=== مدل بُرداری ===
خط ۳۸:
 
== تفاوت بازیابی داده و بازیابی اطلاعات ==
بین بازیابی اطلاعات و [[بازیابی داده]] تفاوت‌های زیادی وجود دارد. داده‌ها ابهام ندارند، اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم می‌شوند. سیستمی که برای بازیابی داده طراحی شده نیازی به رفع این ابهام‌ها ندارد، اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کرد تا ابهام در درک اطلاعات توسط سیستم کمتر شوند. به همین علت بر خلاف سیستم‌های بازیابی داده که در آن [[کارایی سیستم]] از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته می‌شود، در سیستم‌های بازیابی اطلاعات، معیار دقت (''precision'') و بازخوانی (''recall'') و معیارهایی شبیه به آنهاآن‌ها به عنوان معیارهای اصلی ارزیابی به کار می‌روند.
 
== بازاریابی اطلاعات در کتابخانه‌ها ==