میدانهای تصادفی شرطی کاملا متصل در ناحیهبندی تصاویر: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
بدون خلاصۀ ویرایش برچسبها: متن دارای ویکیمتن نامتناظر ویرایشگر دیداری |
جز ویرایش بهوسیلهٔ ابرابزار: |
||
خط ۱:
یکی از چالش برانگیزترین مسائل در زمینه بینایی
پتانسیلهای CRF، شرایط هموارسازی را ایجاد میکند که توافقنامه برچسب را بین پیکسلهای مشابه به حداکثر میرساند، و میتواند شرایط پیچیدهتری را که روابط زمینهای بین کلاسها را مدل میکنند، ادغام کند.
مدلهای CRF پایه از پتانسیلهای تکی (به [[زبان انگلیسی|انگلیسی]]
توانایی ساختار CRF برای مدلسازی ارتباطات دوربرد در درون تصویر محدود است و
== مدل میدانهای تصادفی شرطی
▲== مدل میدانهای تصادفی شرطی کاملا متصل<ref>{{Cite journal|last=Koltun|first=Vladlen|last2=Krähenbühl|first2=Philipp|date=2012-10-20|title=Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials|url=https://arxiv.org/abs/1210.5644v1|language=en}}</ref>==
یک میدان تصادفی X را در نظر بگیرید که بر روی مجموعهای از متغیرها {<math>{X_0,X_1,...,X_N}</math>} تعریف میشود. دامنه هر متغیر مجموعهای از برچسبهای {<math>L_0,L_1,...L_k</math>} = L است. یک میدان تصادفی I را نیز در نظر بگیرید که در آن متغیرهای {<math>I_0,I_1,...,I_N</math>} تعریف شدهاند. در تنظیمات ما، I تصاویر ورودی است و X برچسبهای مختلفی است که میتوان به تصویر نسبت داد . <math>I_j</math>بردار رنگ تصویر jام را مشخص میکند و<math>X_j</math>برچسبی که به پیکسلهای آن اختصاص داده میشود را مشخص میکند.
سطر ۱۶ ⟵ ۱۴:
<math display="block">P(X|I)=\frac{1}{Z(I)}\exp(\textstyle \sum_{c\in \varsigma_\boldsymbol{g}}\Phi_c(X_c|I) \displaystyle)</math>
که در آن <math>\boldsymbol{g=(\upsilon,\varepsilon)}</math>یک گراف روی X است و هر کلیک <math>\boldsymbol{c}</math>درون
انرژی گییبز برچسب <math>X \in L^N</math>برابر <math>E(x|I)=\sum_{\boldsymbol{c \in \varsigma_g}}\Phi_c(x_c|I)</math>است.
سطر ۲۸ ⟵ ۲۶:
<math display="block">E(X)=\sum_{i}\Psi_u (x_i)+ \sum_{i<j}\Psi_p(x_i,x_j)</math>
که در آن i و j از ۱ تا N متغیر هستند. پتانسیل تکی،<math>\Psi_u (x_i)</math> به صورت مستقل برای هر پیکسل توسط یک طبقهبندی کننده که توزیع روی برچسب <math>x_i</math>است محاسبه میشود. این پتانسیلها برای بیان رابطه بین شکل، بافت، مکان، و رنگ استفاده میشوند.
از آنجایی که خروجی طبقهبندی کننده تکی برای هر پیکسل
<math display="block">\Psi_P(x_i,x_j)=\mu(x_i,x_j)\sum_{m=1}^k w^{(m)}k^{(m)}(f_i,f_j)</math>
<math display="block">k(f_i,f_j)=w^{(1)}\exp\left (- \frac {|p_i-p_j|^2}{2\theta_\alpha^2}- \frac {|I_i-I_j|^2}{2\theta_\beta^2} \right )+ w^{(2)}\exp\left (- \frac {|p_i-p_j|^2}{2\theta_\gamma^2}\right )</math> تابع سازگاری با برچسب ساده μ توسط مدل Potts معرفی میشودو یک پنالتی را برای پیکسلهای مرتبط با هم به برچسبهای مختلف در نظر میگیرد.
== روش استدلال بهینه درمیدانهای تصادفی شرطی کاملا متصل ==
الگوریتم ما براساس یک تقریب [[بررسی Mean field approximation|میدان میانگین]] از توزیع crf عمل میکند
== روش میدان میانگین ==
به جای محاسبه توزیع دقیق
▲به جای محاسبه توزیع دقیق (x)P, تقریب میدان میانگین یک توزیع Q(x) را محاسبه میکند که رابطه [[:en:Kullback–Leibler_divergence|کولبک-لیبلر]] را به حداقل میرساند.این رابطه به صورت زیر تعریف میشود:
<math display="block">KL(q||p)=\int_{z}^{} q(z)log(q(z)/p(z|x))\, dz=E[log(q(z)/p(z|x))]</math>
از آنجایی که تمام توابع توزیع Q
حداقلسازی رابطه بالا با فرض موجود بودن <math>Q_i(X_i)</math> و <math>Q(X)</math>معادله هنگامسازی تکراری زیر را به ما میدهد:
<math display="block">Q_i(x_i=1)= \frac{1}{z(i)}\exp\Biggl(-\Psi_u(x_i)-\sum_{l'\in L}\mu(l,l')\sum_{m=1}^k w^{(m)}\sum_{j\neq i}k^{(m)}(f_i,f_j)Q_j(l')\Biggr)</math>که این الگوریتم به صورت جزئی در هر مرحله به صورت زیر عمل
هر بار تکرار الگوریتم بالا یک مرحله انتقال پیام، یک تبدیل سازگاری و یک به روزرسانی محلی را انجام میدهد. هم تغییر سازگاری و هم به روز رسانی محلی در زمان خطی انجام میشوند و بسیار کارآمد هستند. ستون فقرات محاسبات قسمت انتقال پیام است. برای هر متغیر این مرحله مستلزم ارزیابی مجموع تمام متغیرهای دیگر است. در نتیجه یک پیادهسازی ساده، پیچیدگی درجهدوم از تعداد متغیر N دارد. سپس، نشان میدهیم که چگونه فیلتر کردن ابعادی بالا میتواند برای کاهش هزینه محاسباتی ارسال پیام مورد استفاده قرار گیرد.
▲== روش ارسال پیغام بهینه با استفاده از فیلترهای ابعاد بالا ==
از دیدگاه پردازش سیگنال، مرحله عبور پیام میتواند با کانولوشن با یک هسته گاوسی <math>G_\land(m)</math> در فضای ویژگی بیان شود و رابطه آن به صورت زیر است:
<math display="block">\tilde{Q}_i^m(l)=\sum_{j \in \upsilon}k^{(m)}(f_i,f_j)Q_j(l)-Q_i(l)=[G\land(m) \otimes Q(l)](f_i)-Q_i(l)</math>
دلیل اینکه <math>Q_i</math>را از حاصل کم میکنیم به دلیل این است که کانولوشن روی
با استفاده از قضیه نمونهبرداری این تابع را میتوان از مجموعهای از نمونههایی که فاصلهگذاری آن متناسب با انحراف استاندارد فیلتر است، بازسازی نمود.
= منابع =
{{پانویس}}{{سخ}}
|