حاشیه‌نویسی خودکار تصاویر

حاشیه‌نویسی خودکار تصاویر (انگلیسی: Automatic image annotation) یا نمایه‌سازی واژگانی (linguistic indexing) فرآیندی است که توسط آن یک سامانه رایانه‌ای به‌طور خودکار، فراداده را به شکل توضیح‌نویسی تصویر یا زیرنویس یا کلیدواژه برای یک تصویر رقومی (دیجیتالی) فراهم می‌کند. از این کار برای یافتن آسان‌تر تصاویر در پایگاه‌های داده استفاده می‌شود.

برون‌داد یک نرم‌افزار «زیرنویس‌گذار متراکم» (DenseCap) از تحلیل تصویر یک مرد فیل‌سوار.

شیوه کار ویرایش

تصور کنید یک آلبوم عکس بزرگ بدون هیچ برچسبی دارید. حاشیه‌نویسی خودکار تصاویر مانند داشتن یک دستیار ماشینی ویژه است که می‌تواند تمام عکس‌ها را نگاه کند و سعی کند آنها را برای شما برچسب‌زنی کند.

این ماشین با استفاده از مجموعه‌ای از عکس‌ها که از قبل برچسب‌گذاری شده‌اند، آموزش می‌بیند. این آموزش به ماشین کمک می‌کند تا الگوهایی مانند اشکال و رنگ‌ها را در تصاویر تشخیص دهد. هنگامی که ماشین یک عکس جدید را می‌بیند، از دانش خود برای حدس زدن محتوای تصویر استفاده می‌کند. ممکن است اشیاء مانند خودرو، انسان یا کوه را شناسایی کند. بر اساس حدس‌های خود، ماشین برچسب‌هایی مانند نمایه را به عکس اضافه می‌کند. این برچسب‌ها می‌توانند کلمات ساده یا حتی توضیحات کوتاه باشند. برای نمونه، به دوست خود کمک کنید تا عکس‌ها را مرتب کند. شما به دوستتان می‌گویید که کدام عکس‌ها گربه دارند و آنها شروع به تشخیص گربه‌ها در عکس‌های دیگر به‌طور خودکار می‌کنند. برچسب‌گذاری خودکار تصاویر به روشی مشابه کار می‌کند. این هوش مصنوعی ماشینی هنوز در حال یادگیری است و ممکن است گاهی اوقات اشتباه کند، اما هرچه عکس‌های بیشتری ببیند، در برچسب‌گذاری خودکار تصاویر بهتر می‌شود.

توضیح علمی ویرایش

این روش را می‌توان نوعی رده‌بندی چندگانه در بینایی رایانه‌ای در نظر گرفت که در آن تعداد رده‌ها بسیار زیاد است - به بزرگی اندازه یک واژه‌نامه. معمولاً، تحلیل تصویر در قالب ویژگی‌های استخراج شده و کلمات کلیدی به کاررفته در فرایند برچسب‌گذاری، توسط تکنیک‌های یادگیری ماشینی مورد استفاده قرار می‌گیرند تا برچسب مناسب به‌طور خودکار بر روی تصاویر جدید زده شود. در روش‌های اولیه همبستگی میان ویژگی‌های یک تصویر و کلمات کلیدی موجود در آموزش داده شده به سامانه، آموخته می‌شد. سپس تکنیک‌هایی بر پایه ترجمه ماشینی توسعه داده شدند تا واژه‌نامه تصویری و متنی با هم ترجمه گردند؛ یا به صورت نواحی خوشه‌بندی‌شده که با نام لکه شناخته می‌شوند، پردازش گردند. تحقیقات بعدی شامل رویکردهای مرتبط با رده‌بندی، مدل‌های مرتبط بودن و غیره بوده‌اند.

مزیت برچسب‌گذاری خودکار تصاویر نسبت به بازیابی محتوامحور تصاویر (CBIR) این است که پرس‌وجوها توسط کاربر در یک زبان طبیعی راحت‌تر قابل بیان هستند. با CBIR عموماً کاربرها برای جست‌وجو، نیازمند مفاهیم تصویری مثل رنگ و بافت هستند یا ناچار به یافتن یک مثال تصویری نزدیک به مفهوم مورد نظر خود خواهند بود. برخی از ویژگی‌های تصویری در نمونه‌های تصویر ممکن است مغایر با منظور اصلی مورد نظر کاربر باشند. روش‌های سنتی بازیابی تصاویر مثل آنهایی که در کتابخانه‌ها استفاده می‌شوند بر پایه برچسب‌زنی دستی تصاویر بنا شده‌اند که هزینه‌بر و بسیار زمان‌بر است؛ مخصوصاً با در نظر داشتن پایگاه داده‌های تصویری بزرگ و دائماً در حال رشدی که وجود دارند.

جستارهای وابسته ویرایش

منابع ویرایش