میدان‌های تصادفی شرطی کاملا متصل در ناحیه‌بندی تصاویر: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Niloufar delfan (بحث | مشارکت‌ها)
بدون خلاصۀ ویرایش
برچسب‌ها: متن دارای ویکی‌متن نامتناظر ویرایشگر دیداری
جز ویرایش به‌وسیلهٔ ابرابزار:
خط ۱:
یکی از چالش برانگیزترین مسائل در زمینه بینایی کامپیوتر,کامپیوتر، بخش‌بندی و طبقه‌بندی تصاویر چند طبقه است. هدف این است که هر پیکسل تصویر را با یکی از چند طبقه هدف [[برچسب‌گذاری گراف|برچسب گذاری]] کنیم,کنیم، در نتیجه به صورت همزمان شناسایی و بخش‌بندی کلاس‌ها را انجام می‌دهیم. یک روش معمول این است که این مشکل را به عنوان حداکثر یک احتمال پسین (به [[زبان انگلیسی|انگلیسی]] : maximum a posterior) استنتاج کنیم که در یک میدان تصادفی شرطی (به [[زبان انگلیسی|انگلیسی]] : Conditional Random Field) بر روی پیکسل یا لکه‌های تصویری تعریف می‌شود.
 
پتانسیل‌های CRF، شرایط هموارسازی را ایجاد می‌کند که توافقنامه برچسب را بین پیکسل‌های مشابه به حداکثر می‌رساند، و می‌تواند شرایط پیچیده‌تری را که روابط زمینه‌ای بین کلاس‌ها را مدل می‌کنند، ادغام کند.
 
مدل‌های CRF پایه از پتانسیل‌های تکی (به [[زبان انگلیسی|انگلیسی]] : unary ) بر روی پیکسل‌های تصویر و پتانسیل دوگانه در مورد پیکسل‌های مجاور تصویر تشکیل شده‌اند.
 
توانایی ساختار CRF برای مدل‌سازی ارتباطات دوربرد در درون تصویر محدود است و به طوربه‌طور کلی موجب هموارسازی بیش از حد مرز اشیا می‌شود. به منظور بهبود دقت تقسیم‌بندی و برچسب زدن ،زدن، محققان چارچوب بنیادی CRF پایه را برای ترکیب اتصال سلسله مراتبی و پتانسیل‌های مرتبه بالاتر در تمامی تصویر گسترش داده‌اند.
 
== مدل میدان‌های تصادفی شرطی کاملاکاملاً متصل<ref>{{Cite journal|last=Koltun|first=Vladlen|last2=Krähenbühl|first2=Philipp|date=2012-10-20|title=Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials|url=https://arxiv.org/abs/1210.5644v1|language=en}}</ref> ==
<br />
 
== مدل میدان‌های تصادفی شرطی کاملا متصل<ref>{{Cite journal|last=Koltun|first=Vladlen|last2=Krähenbühl|first2=Philipp|date=2012-10-20|title=Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials|url=https://arxiv.org/abs/1210.5644v1|language=en}}</ref>==
یک میدان تصادفی X را در نظر بگیرید که بر روی مجموعه‌ای از متغیرها {<math>{X_0,X_1,...,X_N}</math>} تعریف می‌شود. دامنه هر متغیر مجموعه‌ای از برچسب‌های {<math>L_0,L_1,...L_k</math>} = L است. یک میدان تصادفی I را نیز در نظر بگیرید که در آن متغیرهای {<math>I_0,I_1,...,I_N</math>} تعریف شده‌اند. در تنظیمات ما، I تصاویر ورودی است و X برچسب‌های مختلفی است که می‌توان به تصویر نسبت داد . <math>I_j</math>بردار رنگ تصویر jام را مشخص می‌کند و<math>X_j</math>برچسبی که به پیکسل‌های آن اختصاص داده می‌شود را مشخص می‌کند.
 
سطر ۱۶ ⟵ ۱۴:
<math display="block">P(X|I)=\frac{1}{Z(I)}\exp(\textstyle \sum_{c\in \varsigma_\boldsymbol{g}}\Phi_c(X_c|I) \displaystyle)</math>
 
که در آن <math>\boldsymbol{g=(\upsilon,\varepsilon)}</math>یک گراف روی X است و هر کلیک <math>\boldsymbol{c}</math>درون مجموعه‌یمجموعهٔ <math>\boldsymbol{\varsigma_g}</math>نشان‌دهنده‌ینشان‌دهندهٔ <math>\Phi\boldsymbol{c}</math>است.
 
انرژی گییبز برچسب <math>X \in L^N</math>برابر <math>E(x|I)=\sum_{\boldsymbol{c \in \varsigma_g}}\Phi_c(x_c|I)</math>است.
سطر ۲۸ ⟵ ۲۶:
<math display="block">E(X)=\sum_{i}\Psi_u (x_i)+ \sum_{i<j}\Psi_p(x_i,x_j)</math>
 
که در آن i و j از ۱ تا N متغیر هستند. پتانسیل تکی،<math>\Psi_u (x_i)</math> به صورت مستقل برای هر پیکسل توسط یک طبقه‌بندی کننده که توزیع روی برچسب <math>x_i</math>است محاسبه می‌شود. این پتانسیل‌ها برای بیان رابطه بین شکل، بافت، مکان، و رنگ استفاده می‌شوند.
 
از آنجایی که خروجی طبقه‌بندی کننده تکی برای هر پیکسل به طوربه‌طور مستقل از خروجی‌های طبقه‌بندی کننده‌ها برای پیکسل‌های دیگر تولید می‌شود، خروجی برچسب خورده به شدت نویزی است. از این رو ما رابطه پتانسیل بین پیکسل‌ها را به صورت زیر تعریف می‌کنیم:
 
<math display="block">\Psi_P(x_i,x_j)=\mu(x_i,x_j)\sum_{m=1}^k w^{(m)}k^{(m)}(f_i,f_j)</math><br />{{سخ}}که در آن هر <math>k^{(m)}</math>یک کرنل گوسی برای رابطه <math>k^{(m)}(f_i,f_j)</math>است و رابطه یرابطهٔ <math>(f_i,f_j)</math>نشان‌دهنده‌ینشان‌دهندهٔ بردار ویژگی‌های دودویی است که ما برای آن تعریف کرده‌ایم.کرده‌ایم؛ که این بردار ویژگی می‌تواند اختلاف رنگ دو پیکسل و یا اختلاف مکانی آن دو باشد.
 
<math display="block">k(f_i,f_j)=w^{(1)}\exp\left (- \frac {|p_i-p_j|^2}{2\theta_\alpha^2}- \frac {|I_i-I_j|^2}{2\theta_\beta^2} \right )+ w^{(2)}\exp\left (- \frac {|p_i-p_j|^2}{2\theta_\gamma^2}\right )</math> تابع سازگاری با برچسب ساده μ توسط مدل Potts معرفی می‌شودو یک پنالتی را برای پیکسل‌های مرتبط با هم به برچسب‌های مختلف در نظر می‌گیرد.
 
== روش استدلال بهینه درمیدان‌های تصادفی شرطی کاملا متصل ==
الگوریتم ما براساس یک تقریب [[بررسی Mean field approximation|میدان میانگین]] از توزیع crf عمل می‌کند . این بخش یک الگوریتم انتقال پیام تکراری را برای استنباط تقریبی ارایه می‌دهد. مشاهده کلیدی ما این است که انتقال پیام در مدل ارائه‌شده می‌تواند با استفاده از فیلترینگ گاوسی در فضای ویژگی انجام شود. این امر ما را قادر می‌سازد که از تقریب‌های بسیار موثرمؤثر برای فیلترینگ با ابعاد بالا استفاده کنیم,کنیم، که پیچیدگی ارسال پیام را از درجه دو به خطی کاهش می‌دهد,می‌دهد، که در نتیجه یک الگوریتم استنباطی تقریبی به دست می‌آید که خطی و با درجه تعداد متغییرمتغیر N است.
 
== روش میدان میانگین ==
به جای محاسبه توزیع دقیق (x)P, تقریب میدان میانگین یک توزیع Q(x) را محاسبه می‌کند که رابطه [[:en:Kullback–Leibler_divergence|کولبک-لیبلر]] را به حداقل می‌رساند. این رابطه به صورت زیر تعریف می‌شود:
 
به جای محاسبه توزیع دقیق (x)P, تقریب میدان میانگین یک توزیع Q(x) را محاسبه می‌کند که رابطه [[:en:Kullback–Leibler_divergence|کولبک-لیبلر]] را به حداقل می‌رساند.این رابطه به صورت زیر تعریف می‌شود:
 
<math display="block">KL(q||p)=\int_{z}^{} q(z)log(q(z)/p(z|x))\, dz=E[log(q(z)/p(z|x))]</math>
 
از آنجایی که تمام توابع توزیع Q می‌تواند به صورت یک محصول حاشیه مستقل بیان شود داریم : <math>Q(X)=\textstyle \prod_{i}Q_i(X_i) \displaystyle</math>
 
حداقل‌سازی رابطه بالا با فرض موجود بودن <math>Q_i(X_i)</math> و <math>Q(X)</math>معادله هنگام‌سازی تکراری زیر را به ما می‌دهد:
 
<math display="block">Q_i(x_i=1)= \frac{1}{z(i)}\exp\Biggl(-\Psi_u(x_i)-\sum_{l'\in L}\mu(l,l')\sum_{m=1}^k w^{(m)}\sum_{j\neq i}k^{(m)}(f_i,f_j)Q_j(l')\Biggr)</math>که این الگوریتم به صورت جزئی در هر مرحله به صورت زیر عمل میکندمی‌کند:
 
 
هر بار تکرار الگوریتم بالا یک مرحله انتقال پیام، یک تبدیل سازگاری و یک به روزرسانی محلی را انجام می‌دهد. هم تغییر سازگاری و هم به روز رسانی محلی در زمان خطی انجام می‌شوند و بسیار کارآمد هستند. ستون فقرات محاسبات قسمت انتقال پیام است. برای هر متغیر این مرحله مستلزم ارزیابی مجموع تمام متغیرهای دیگر است. در نتیجه یک پیاده‌سازی ساده، پیچیدگی درجه‌دوم از تعداد متغیر N دارد. سپس، نشان می‌دهیم که چگونه فیلتر کردن ابعادی بالا می‌تواند برای کاهش هزینه محاسباتی ارسال پیام مورد استفاده قرار گیرد.
 
== روش ارسال پیغام بهینه با استفاده از فیلتر‌هایفیلترهای ابعاد بالا ==
<br />
 
== روش ارسال پیغام بهینه با استفاده از فیلتر‌های ابعاد بالا ==
از دیدگاه پردازش سیگنال، مرحله عبور پیام می‌تواند با کانولوشن با یک هسته گاوسی <math>G_\land(m)</math> در فضای ویژگی بیان شود و رابطه آن به صورت زیر است:
 
<math display="block">\tilde{Q}_i^m(l)=\sum_{j \in \upsilon}k^{(m)}(f_i,f_j)Q_j(l)-Q_i(l)=[G\land(m) \otimes Q(l)](f_i)-Q_i(l)</math>
 
دلیل اینکه <math>Q_i</math>را از حاصل کم می‌کنیم به دلیل این است که کانولوشن روی همه‌یهمهٔ متغییرمتغیر هاانجام می‌شود اما ما حاصل جمع را روی همه‌یهمهٔ عوامل غیر از خود <math>i</math>‌می‌خواهیم. این کانولوشن یک فیلتر پایین گذر که اساساً باند محدود کننده است پیاده‌سازی می‌کند.
 
با استفاده از قضیه نمونه‌برداری این تابع را می‌توان از مجموعه‌ای از نمونه‌هایی که فاصله‌گذاری آن متناسب با انحراف استاندارد فیلتر است، بازسازی نمود.
 
= منابع =
{{پانویس}}{{سخ}}
<references /><br />