حاشیهنویسی خودکار تصاویر
حاشیهنویسی خودکار تصاویر (انگلیسی: Automatic image annotation) یا نمایهسازی واژگانی (linguistic indexing) فرآیندی است که توسط آن یک سامانه رایانهای بهطور خودکار، فراداده را به شکل توضیحنویسی تصویر یا زیرنویس یا کلیدواژه برای یک تصویر رقومی (دیجیتالی) فراهم میکند. از این کار برای یافتن آسانتر تصاویر در پایگاههای داده استفاده میشود.
شیوه کار ویرایش
تصور کنید یک آلبوم عکس بزرگ بدون هیچ برچسبی دارید. حاشیهنویسی خودکار تصاویر مانند داشتن یک دستیار ماشینی ویژه است که میتواند تمام عکسها را نگاه کند و سعی کند آنها را برای شما برچسبزنی کند.
این ماشین با استفاده از مجموعهای از عکسها که از قبل برچسبگذاری شدهاند، آموزش میبیند. این آموزش به ماشین کمک میکند تا الگوهایی مانند اشکال و رنگها را در تصاویر تشخیص دهد. هنگامی که ماشین یک عکس جدید را میبیند، از دانش خود برای حدس زدن محتوای تصویر استفاده میکند. ممکن است اشیاء مانند خودرو، انسان یا کوه را شناسایی کند. بر اساس حدسهای خود، ماشین برچسبهایی مانند نمایه را به عکس اضافه میکند. این برچسبها میتوانند کلمات ساده یا حتی توضیحات کوتاه باشند. برای نمونه، به دوست خود کمک کنید تا عکسها را مرتب کند. شما به دوستتان میگویید که کدام عکسها گربه دارند و آنها شروع به تشخیص گربهها در عکسهای دیگر بهطور خودکار میکنند. برچسبگذاری خودکار تصاویر به روشی مشابه کار میکند. این هوش مصنوعی ماشینی هنوز در حال یادگیری است و ممکن است گاهی اوقات اشتباه کند، اما هرچه عکسهای بیشتری ببیند، در برچسبگذاری خودکار تصاویر بهتر میشود.
توضیح علمی ویرایش
این روش را میتوان نوعی ردهبندی چندگانه در بینایی رایانهای در نظر گرفت که در آن تعداد ردهها بسیار زیاد است - به بزرگی اندازه یک واژهنامه. معمولاً، تحلیل تصویر در قالب ویژگیهای استخراج شده و کلمات کلیدی به کاررفته در فرایند برچسبگذاری، توسط تکنیکهای یادگیری ماشینی مورد استفاده قرار میگیرند تا برچسب مناسب بهطور خودکار بر روی تصاویر جدید زده شود. در روشهای اولیه همبستگی میان ویژگیهای یک تصویر و کلمات کلیدی موجود در آموزش داده شده به سامانه، آموخته میشد. سپس تکنیکهایی بر پایه ترجمه ماشینی توسعه داده شدند تا واژهنامه تصویری و متنی با هم ترجمه گردند؛ یا به صورت نواحی خوشهبندیشده که با نام لکه شناخته میشوند، پردازش گردند. تحقیقات بعدی شامل رویکردهای مرتبط با ردهبندی، مدلهای مرتبط بودن و غیره بودهاند.
مزیت برچسبگذاری خودکار تصاویر نسبت به بازیابی محتوامحور تصاویر (CBIR) این است که پرسوجوها توسط کاربر در یک زبان طبیعی راحتتر قابل بیان هستند. با CBIR عموماً کاربرها برای جستوجو، نیازمند مفاهیم تصویری مثل رنگ و بافت هستند یا ناچار به یافتن یک مثال تصویری نزدیک به مفهوم مورد نظر خود خواهند بود. برخی از ویژگیهای تصویری در نمونههای تصویر ممکن است مغایر با منظور اصلی مورد نظر کاربر باشند. روشهای سنتی بازیابی تصاویر مثل آنهایی که در کتابخانهها استفاده میشوند بر پایه برچسبزنی دستی تصاویر بنا شدهاند که هزینهبر و بسیار زمانبر است؛ مخصوصاً با در نظر داشتن پایگاه دادههای تصویری بزرگ و دائماً در حال رشدی که وجود دارند.
جستارهای وابسته ویرایش
منابع ویرایش
- مشارکتکنندگان ویکیپدیا. «Automatic image annotation». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۳۱ مارس ۲۰۲۴.