میدان تصادفی شرطی

میدان تصادفی شرطی (به انگلیسی: Conditional Random Field)، یک مدل آماری است که در یادگیری ماشین کاربرد دارد. کاربرد اصلی آن در یادگیری ساختاریافته (به انگلیسی: Structured Learning) است. به طور کلی در بسیاری از کاربردها، مانند هوش مصنوعی در مراقبت پزشکی که حجم داده‌ها بسیار زیاد است، مجبور هستیم داده‌ها را به بخش‌های کوچک‌تری تقسیم کنیم. در این تقسیم‌بندی، ممکن است داده‌ها در مجاورت هم معنا داشته باشند و با جدا کردن بخش‌ها، اطلاعات زیادی از دست برود. در نتیجه روشی نیاز است که با آن، بتوانیم همبستگی و وابستگی بین بخش‌های کنار هم را به دست آوریم و از آن اطلاعات جهت بالا آوردن دقت شبکه، استفاده کنیم. پس به شکل ساده، در حالی که یک طبقه بندی کننده یک برچسب را برای یک نمونه بدون در نظر گرفتن نمونه‌های "همسایه" پیش‌بینی می‌کند، یک میدان تصادفی شرطی می‌تواند زمینه اصلی را در نظر بگیرد. برای انجام این کار، پیش‌بینی‌ها به عنوان مدل‌های گرافیکی مدل‌سازی می‌شوند که نشان‌دهنده وجود وابستگی‌ها بین پیش‌بینی‌ها است. پس در این بخش نیاز است که گراف بسازیم و اینکه چه نوع گرافی مناسب مسئله است، کاملا بستگی به نوع مسئله دارد. به عنوان مثال در هوش مصنوعی در مراقبت پزشکی ، نیاز است که هر گره به گره‌های مجاور و همچنین گره‌هایی که بیشترین شباهت را با آن دارند، متصل شود. یا در مثالی دیگر، در پردازش زبان‌های طبیعی نیاز است از گرافی استفاده کنیم که هر نود را تنها به همسایه‌های مجاورش وصل کند.[۱]

نمونه‌های دیگری که از CRF استفاده می‌شود عبارتند از: برچسب‌گذاری یا تجزیه‌کننده داده‌های متوالی برای پردازش زبان‌های طبیعی یا بیوانفورماتیک [۲]، برچسب‌گذاری جزء کلام ، تجزیه سطحی[۳]، تشخیص موجودیت نام‌گذاری شده[۴]، ژن‌یابی ، یافتن ناحیه عملکردی حیاتی پپتید[۵]، و تشخیص شی در تصویر و همچنین بخش‌بندی تصویر در بینایی رایانه‌ای .

تعریف ویرایش

فرض کنیم دو دسته متغیر داریم   و  . در نظر بگیریم گرافی داریم   که متغیرها روی آن تعریف شده اند، یعنی  . زوج   یک میدان تصادفی است که دارای ویژگی مارکوف مقابل است:   که   به معنی آن است که   و   در همسایگی هم قرار دارند. پس می‌توان نتیجه گرفت که میدان شرطی تصادفی، جزو مدل‌های گرافیکی بدون جهت است که گره‌های آن می‌توانند دقیقا به دو مجموعه جدا از هم تقسیم شود. این دو مجموعه شامل گره‌های مشاهده شده و خروجی است. سپس با این دو مجموعه که به دست آوردیم، می‌توانیم توزیع احتمال شرطی آن‌ها را به دست آوریم.

استنتاج ویرایش

در حالت کلی استنتاج روی میدان تصادفی شرطی بسیار شبیه به میدان تصادفی مارکفی و از لحاظ محاسباتی دشوار است. اما به ازای بعضی شرایط خاص می‌توان آن‌ها را به صورت ساده تری حل کرد:

  • اگر گراف بدون حلقه باشد در اینصورت الگوریتم‌های message passing جواب درست را بدست می دهند. در حالت خاص اگر گراف، زنجیره باشد، الگوریتم forward-backward و الگوریتم ویتربی جواب درست را بدست می دهند.
  • در حالتی که گراف دارای پتانسیل‌های دو-دویی باشد، الگوریتم برش کمینه جواب بهینه را بدست می دهد.

در صورتی که جواب دقیق غیرممکن باشد، راه حل‌های تقریبی می‌توانند کمک کنند:

  • Loopy belief propagation
  • Alpha expansion
  • Mean field inference
  • Linear programming relaxations

یادگیری مدل ویرایش

برای یادگیری پارامتر θ از روش برآورد درست‌نمایی بیشینه استفاده می‌شود تا با کمک آن عبارت p(Yi|Xi;θ) را یاد بگیریم. اگر همه گره‌ها دارای توزیع نمایی باشند و همه گره‌ها در طول آموزش مشاهده شوند، این بهینه‌سازی محدب است[۶]. الگوریتم‌های متنوعی هم برای حل آن وجود دارد که شامل روش گرادیان کاهشی یا Limited-memory BFGS است. از سوی دیگر، اگر برخی از متغیرها مشاهده نشوند، مشکل استنتاج باید برای این متغیرها حل شود. استنتاج دقیق در نمودارهای کلی غیرقابل حل است، بنابراین باید از تقریب استفاده شود.

میدان تصادفی شرطی با زنجیره خطی ویرایش

میدان‌های تصادفی شرطی با زنجیره خطی بسیاری از کاربردهای مشابه مدل مارکوف پنهان (HMM) را دارند، اما فرض‌های ساده شده‌ای در مورد توزیع توالی ورودی و خروجی دارند که باعث ساده‌تر شدن مسئله می‌شود. یک مدل مارکوف پنهان را می‌توان به‌عنوان یک میدان تصادفی شرطی با تابع‌های ویژگی بسیار خاص که از احتمالات ثابت برای مدل‌سازی انتقال حالت و انتشار استفاده می‌کند، درک کرد. برعکس، یک میدان تصادفی شرطی را می‌توان به‌طور ساده به‌عنوان تعمیم یک مدل مارکوف پنهان درک کرد که احتمالات انتقال ثابت را به توابع دلخواه تبدیل می‌کند که در موقعیت‌های توالی حالت‌های پنهان بسته به دنباله ورودی متفاوت است.

قابل ذکر است، برخلاف مدل مارکوف پنهان ، میدان‌های تصادفی شرطی می‌توانند دارای هر تعداد توابع ویژگی باشند، توابع ویژگی می‌توانند کل دنباله ورودی X را در هر نقطه در طول استنتاج بررسی کنند، و دامنه توابع ویژگی نیازی به تفسیر احتمالی ندارد.

همچنین ببینید ویرایش

منابع ویرایش

  1. Yi Li; Wei Ping (2018) Cancer Metastasis Detection With Neural Conditional Random Field
  2. Lafferty, J., McCallum, A., Pereira, F. (2001). "Conditional random fields: Probabilistic models for segmenting and labeling sequence data[پیوند مرده]". Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289.
  3. Sha, F.; Pereira, F. (2003). shallow parsing with conditional random fields.
  4. Settles, B. (2004). "Biomedical named entity recognition using conditional random fields and rich feature sets". Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. pp. 104–107.
  5. Chang KY; Lin T-p; Shih L-Y; Wang C-K (2015). "Analysis and Prediction of the Critical Regions of Antimicrobial Peptides Based on Conditional Random Fields". PLOS ONE. 10 (3): e0119490.
  6. Sutton, Charles; McCallum, Andrew (2010). "An Introduction to Conditional Random Fields". arXiv:1011.4088v1

مطالعه ی بیشتر ویرایش

  • McCallum, A.: Efficiently inducing features of conditional random fields. In: Proc. 19th Conference on Uncertainty in Artificial Intelligence. (2003)
  • Wallach, H.M.: Conditional random fields: An introduction. Technical report MS-CIS-04-21, University of Pennsylvania (2004)
  • Sutton, C., McCallum, A.: An Introduction to Conditional Random Fields for Relational Learning. In "Introduction to Statistical Relational Learning". Edited by Lise Getoor and Ben Taskar. MIT Press. (2006) Online PDF
  • Klinger, R., Tomanek, K.: Classical Probabilistic Models and Conditional Random Fields. Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology, December 2007. ISSN 1864-4503. Online PDF