طبقه‌بندی تصاویر متنی

طبقه‌بندی تصاویر متنی (به انگلیسی: Contextual image classification)، شاخه ای از بینایی کامپیوتری برای تشخیص الگو، رویکردی از طبقه‌بندی بر اساس اطلاعات متنی در تصاویر است. «متنی» به این معنی است که این رویکرد بر رابطه پیکسل‌های نزدیک متمرکز است که به آن همسایگی نیز می‌گویند. هدف این رویکرد طبقه‌بندی تصاویر با استفاده از اطلاعات متنی است.

مقدمه

همانند پردازش زبان طبیعی ، یک کلمه ممکن است معانی متعددی داشته باشد، مگر اینکه اطلاعات جانبی و زمینه تصویر نیز ارائه شود، الگوهای درون جملات تنها بخش های حاوی اطلاعات هستند که ما به آنها اهمیت می دهیم. برای تصاویر نیز اصول به همین شکل است. تنها کافیست الگوها را بیابید و معانی مناسب را به آنها مرتبط کنید.

همانطور که در تصویر زیر نشان داده شده است، اگر تنها بخش کوچکی از تصویر نشان داده شود، تشخیص اینکه تصویر در مورد چیست بسیار دشوار است.

تصویر دهان

حتی بخش دیگری از تصویر را امتحان کنید، باز هم طبقه بندی تصویر دشوار است.

تصویر چشم چپ

با این حال، اگر زمینه تصویر را افزایش دهیم، تشخیص آن راحت تر می شود.

بیشتر شدن جزئیات تصویر

همانطور که تصاویر کامل در زیر نشان می دهد، تقریباً همه می توانند آن را به راحتی طبقه بندی کنند.

تصویر کامل

در طول فرآیند تقسیم‌بندی تصاویر، روش‌هایی که از اطلاعات زمینه‌ای استفاده نمی‌کنند به نویز و پراکندگی حساس هستند، بنابراین نتیجه تقسیم‌بندی تعداد زیادی از مناطق طبقه‌بندی‌شده اشتباه است و اغلب این مناطق کوچک هستند (مثلاً یک پیکسل).

در مقایسه با سایر تکنیک‌ها، این رویکرد در مقابل نویز، قوی است و تغییرات قابل‌توجهی دارد زیرا پیوستگی بخش‌ها را در نظر می‌گیرد.

چندین روش از این رویکرد در ادامه توضیح داده خواهد شد.

کاربرد ها

کاربرد به عنوان یک فیلتر پس پردازش برای تصاویر لیبل گذاری شده

این رویکرد در برابر مناطق کوچک ناشی از نویز بسیار موثر است. و این مناطق کوچک معمولاً توسط یک یا چند پیکسل تشکیل می شوند. در این رویکرد محتمل ترین برچسب به این مناطق اختصاص داده شده است. با این حال، این روش یک اشکال دارد. نواحی کوچک نیز می‌توانند توسط نواحی صحیح به جای نویز تشکیل شوند و در این مورد این روش در واقع طبقه‌بندی را بدتر می‌کند. این رویکرد به طور گسترده در برنامه های سنجش از راه دور استفاده می شود.

بهبود طبقه بندی پس از پردازش

در این رویکرد، یک فرآیند طبقه بندی دو مرحله ای انجام می شود:

برای هر پیکسل، پیکسل را برچسب گذاری کنید و یک بردار ویژگی جدید برای آن تشکیل دهید.
از بردار ویژگی جدید استفاده کنید و با توجه به اطلاعات متنی و بردار ویژگی جدید، برچسب نهایی را به آن اختصاص دهید

ادغام پیکسل ها در مراحل اولیه

به جای استفاده از تک پیکسل ها، پیکسل های همسایه را می توان در مناطق همگن با بهره مندی از اطلاعات متنی ادغام کرد و این مناطق را به طبقه بندی کننده ارائه دهید.

به دست آوردن ویژگی پیکسل به وسیله همسایه های آن

داده‌های طیفی اصلی را می‌توان با افزودن اطلاعات زمینه‌ای که در پیکسل‌های همسایه دیده می‌شود، غنی‌سازی کرد یا حتی در برخی موارد جایگزین کرد. این نوع روش های پیش پردازش به طور گسترده ای در تشخیص تصویر بافت دار (به انگلیسی: Image texture) استفاده می شود. رویکردهای معمولی شامل مقادیر میانگین، واریانس ها، توصیف بافت و غیره است.

ترکیب اطلاعات طیفی و فضایی

طبقه‌بندی‌کننده از سطح خاکستری و همسایگی پیکسل (اطلاعات متنی) برای اختصاص برچسب‌ها به پیکسل‌ها استفاده می‌کند. در چنین حالتی اطلاعات ترکیبی از اطلاعات طیفی و مکانی است.

قدرت گرفته شده از طبقه بندی کننده حداقل خطای بیز (Bayes minimum error)

طبقه‌بندی متنی داده‌های تصویر بر اساس طبقه‌بندی‌کننده حداقل خطای بیز (همچنین به عنوان دسته‌بندی‌کننده بیز ساده شناخته می‌شود.) انجام می شود.

پیکسل را ارائه دهید:

یک پیکسل به عنوان $x_{0}$ نشان داده می شود.
همسایگی هر پیکسل ${\displaystyle x_{0}}$ یک بردار است و با ${\displaystyle N(x_{0})}$ نشان داده می‌شود.
مقادیر در بردار همسایگی به صورت ${\displaystyle f(x_{i})}$ نشان داده می شود.
هر پیکسل توسط بردار ارائه می شود
- ${\displaystyle \xi =\left(f(x_{0}),f(x_{1}),\ldots ,f(x_{k})\right)}$
- ${\displaystyle x_{i}\in N(x_{0});\quad i=1,\ldots ,k}$

برچسب‌ها (طبقه‌بندی) پیکسل‌ها در همسایگی ${\displaystyle N(x_{0})}$ به‌عنوان یک بردار ارائه می‌شوند.
- ${\displaystyle \eta =\left(\theta _{0},\theta _{1},\ldots ,\theta _{k}\right)}$
- ${\displaystyle \theta _{i}\in \left\{\omega _{0},\omega _{1},\ldots ,\omega _{k}\right\}}$
- ${\displaystyle \omega _{s}}$ در اینجا نشان دهنده کلاس اختصاص داده شده است.

یک بردار برچسب‌ها را در همسایگی ${\displaystyle N(x_{0})}$ بدون پیکسل ${\displaystyle x_{0}}$ نشان می‌دهد.
همسایگی : اندازه همسایگی. هیچ محدودیتی در اندازه وجود ندارد، اما برای هر پیکسل ${\displaystyle x_{0}}$ نسبتاً کوچک در نظر گرفته می‌شود. اندازه منطقی محله می تواند ${\displaystyle 3\times 3}$ و با 4 اتصال یا 8 اتصال باشد ( ${\displaystyle x_{0}}$ به رنگ قرمز علامت گذاری شده و در مرکز قرار می گیرد).

همسایگی با 8 اتصال
همسایگی با 4 اتصال

نحوه محاسبات :

حداقل طبقه بندی خطا را روی یک پیکسل ${\displaystyle x_{0}}$ اعمال کنید، اگر احتمال اینکه یک کلاس ${\displaystyle \omega _{r}}$ پیکسل ${\displaystyle x_{0}}$ را ارائه دهد بالاترین در بین همه باشد. ، سپس ${\displaystyle \omega _{r}}$ را به عنوان کلاس آن اختصاص دهید.

${\displaystyle \theta _{0}=\omega _{r}\quad {\text{ if }}\quad P(\omega _{r}\mid f(x_{0}))=\max _{s=1,2,\ldots ,R}P(\omega _{s}\mid f(x_{0}))}$

قانون طبقه بندی متنی به صورت زیر توضیح داده شده است که از بردار ویژگی ${\displaystyle x_{1}}$ به جای ${\displaystyle x_{0}}$ استفاده می کند.

${\displaystyle \theta _{0}=\omega _{r}\quad {\text{ if }}\quad P(\omega _{r}\mid \xi )=\max _{s=1,2,\ldots ,R}P(\omega _{s}\mid \xi )}$

از قانون بیز برای محاسبه احتمال پسین (به انگلیسی: posteriori) استفاده کنید ${\displaystyle P(\omega _{s}\mid \xi )}$ :

${\displaystyle P(\omega _{s}\mid \xi )={\frac {p(\xi \mid \omega _{s})P(\omega _{s})}{p\left(\xi \right)}}}$

تعداد بردارها با تعداد پیکسل های تصویر برابر است. برای طبقه‌بندی‌کننده از بردار مربوط به هر پیکسل ${\displaystyle x_{i}}$ استفاده می‌کند و این بردار از همسایگی پیکسل تولید می‌شود.

مراحل اساسی طبقه بندی تصاویر متنی:

بردار ویژگی ${\displaystyle \xi }$ را برای هر پیکسل محاسبه کنید.
محاسبه پارامترهای توزیع احتمال ${\displaystyle p(\xi \mid \omega _{s})}$ و ${\displaystyle P(\omega _{s})}$
محاسبه احتمالات پسین ${\displaystyle P(\omega _{r}\mid \xi )}$ و همه برچسب‌های ${\displaystyle \theta _{0}}$ . نتیجه طبقه بندی تصویر را دریافت کنید.

الگوریتم ها

تطابق الگو

تطابق الگو یک پیاده سازی با نگرش برنامه سازی پرقدرت (به انگلیسی: brute force) از این رویکرد است ^[۱]. ایده این الگوریتم به این شکل است که ابتدا مجموعه ای از الگوها ایجاد می شود و سپس به دنبال قسمت های کوچک در تصویر مطابقت با یک الگو می رویم.

این روش از نظر هزینه محاسباتی ناکارآمد است. در این روش، یک لیست کامل الگوها را در طول کل فرآیند نگه داشته می شود و تعداد ترکیب ها بسیار زیاد است. برای یک تصویر پیکسلی ${\displaystyle m\times n}$ ، می‌تواند حداکثر ترکیب ${\displaystyle 2^{m\times n}}$ وجود داشته باشد که منجر به محاسبات بالا می‌شود. این روش یک روش بالا به پایین است و اغلب به آن جدول جستجو یا جستجو گفته می شود.

زنجیره مارکوف درجه پایین

زنجیره مارکوف ^[۲] همچنین می تواند در تشخیص الگو اعمال شود. پیکسل های یک تصویر را می توان به عنوان مجموعه ای از متغیرهای تصادفی تشخیص داد، سپس از زنجیره مارکوف مرتبه پایین برای یافتن رابطه بین پیکسل ها استفاده کرد. تصویر به عنوان یک خط مجازی در نظر گرفته می شود و این روش از احتمال شرطی استفاده می کند.

منحنی های پرکننده فضا هیلبرت

منحنی هیلبرت در یک الگوی منحصربه‌فرد در کل تصویر اجرا می‌شود، هر پیکسل را بدون این که دوبار بازدید کند، طی می‌کند و یک منحنی پیوسته را حفظ می‌کند. این الگوریتم بسیار سریع و کارآمد است.

شبکه های مارکوف

زنجیره مارکوف مرتبه پایین و منحنی های پرکننده فضا هیلبرت که در بالا ذکر شد، تصویر را به عنوان یک ساختار خطی در نظر می گیرند. شبکه های مارکوف با این حال اطلاعات دو بعدی را در نظر می گیرند.

درخت وابستگی

درخت وابستگی ^[۳] روشی است که از وابستگی اجزای درخت برای تقریب توزیع‌های احتمال استفاده می‌کند.

منابع

↑ G.T. Toussaint, "The Use of Context in Pattern Recognition," Pattern Recognition, vol. 10, 1977, pp. 189–204.
↑ «What Are Markov Chains? 5 Nifty Real World Uses». MakeUseOf (به انگلیسی). دریافت‌شده در ۲۰۱۸-۱۲-۲۷.
↑ C.K. Chow and C.N. Liu, "Approximating Discrete Probability Distributions with Dependence Trees," IEEE Transactions on Information Theory, vol.14, no. 3, May 1965, pp. 462–467.

مشارکت‌کنندگان ویکی‌پدیا. «Contextual image classification». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۱۵ اکتبر ۲۰۲۱.

لینک های خارجی

صفحه اصلی Advanced Vision

کاربرد استفاده از context در تشخیص الگو

تجزیه و تحلیل تصویر: طبقه بندی تصویر contextual

[1] G.T. Toussaint, "The Use of Context in Pattern Recognition," Pattern Recognition, vol. 10, 1977, pp. 189–204.

[2] «What Are Markov Chains? 5 Nifty Real World Uses». MakeUseOf (به انگلیسی). دریافت‌شده در ۲۰۱۸-۱۲-۲۷.

[3] C.K. Chow and C.N. Liu, "Approximating Discrete Probability Distributions with Dependence Trees," IEEE Transactions on Information Theory, vol.14, no. 3, May 1965, pp. 462–467.

[۱]

[۲]

[۳]