مسئله بزرگترین زیردنباله مشترک

بزرگترین زیردنباله مشترک (به انگلیسی: Longest Common Subsequence)، روشی است که برای پیدا کردن بزرگترین زیردنباله در مجموعه‌ای از دنباله‌ها (غالباً دو دنباله) به کار می‌رود و مسئله‌ای قدیمی در علم کامپیوتر است. تفاوت این مسئله با مسئله ی بزرگترین زیررشته ی مشترک در این است که برای یک زیردنباله از یک رشته، نیازی نیست که اعضای آن مجاور یک دیگر باشند و به‌طور متوالی آمده باشند. این مسئله اساس کار برنامه‌های مقایسه‌کننده فایل است که تفاوت دو فایل را نمایش می‌دهد. همین طور در بیوانفورماتیک برای مقایسه رشته‌های دی ان ای کاربرد دارد.

با مسئله بزرگترین زیررشته مشترک اشتباه نشود

ویرایش

در علوم کامپیوتر، مسئله بلندترین زیررشته مشترک برای یافتن بلندترین رشته(یا رشته‌هایی) که زیر رشته (یا زیررشته‌هایی)از دویاچندین رشته هستند،می‌باشد.این مسئله نباید با مسئله بلندترین زیردنباله مشترک اشتباه گرفته شود.(برای توضیحی در مورد تفاوت میان یک زیررشته و یک زیردنباله به زیررشته درمقابل زیردنباله رجوع کنید).

شرح مسئله

ویرایش

دو رشته زیر را در نظر بگیرید:

 

 

هدف مقایسه این دو رشته و پیدا کردن شباهت بین آن‌ها است. بزرگترین زیردنباله مشترک این‌طور تعریف می‌شود که دنباله‌ای مانند   است به‌طوری‌که حروف موجود در   با حفظ ترتیب در   و   موجود باشد. اما مطلقاً لزومی ندارد که متوالی باشد. از طرفی   باید بزرگترین دنباله ممکن با خواص بالا باشد. به‌طور کلی اگر دو رشته   و   را در نظر بگیریم، یک بلندترین زیر دنباله مشترک را می‌توان با استفاده از برنامه نویسی پویا پیدا کرد.

راه حل برای دو دنباله

ویرایش

مسئله LCS دارای خصوصیت زیر ساختار بهینه (Optimal Substructure) است:

مسئله LCS را می‌توان به زیر مسئله‌های کوچک تر تقسیم نمود.

که این زیر مسئله‌ها جفت دنباله‌های پیشوندی دو دنباله ورودی هستند. اگر داشته باشیم:  ٫ آن گاه   به این صورت تعریف می‌شود:  

فرض کنید   و   دو رشته باشند و   بلندترین زیردنباله مشترک یا LCS دو رشته Y و X باشند. پیاده‌سازی الگوریتم با استفاده از روش برنامه‌نویسی پویا به این صورت است:

۱)اگر   باشد٫ آن گاه   و   یک LCS برای   و   است.

۲)اگر   باشد٫ آن گاه   نتیجه می‌دهد که Z یک LCS برای   و   است.

۳)اگر   باشد٫ آن گاه   نتیجه می‌دهد که Z یک LCS برای   و   است.

قضیه فوق نشان می‌دهد: LCS دو رشته٫ در داخل خودش٫ حاوی یک LCS برای پیشوندهای آن دو رشته نیز می‌باشد.

یک راه حل بازگشتی برای پیداکردن LCS

ویرایش

فرض کنید   یک عنصر از آرایه C باشد که نشان دهنده طول LCS دو دنباله  و   است. بنابراین اگر i=0 یا j=0 باشد٫ یکی از دنباله‌ها دارای طول صفر است و در نتیجه LCS دو دنباله صفر خواهد شد.   بنابراین وقتی که   باشد٫ زیر مسئله ما پیدا کردن LCS برای   و   است. در غیر این صورت ما دو زیر مسئله داریم:

پیدا کردن LCS برای   و   و

پیدا کردن LCS برای   و  

 
شکل ۱

االگوریتم را با استفاده از روش برنامه‌نویسی پویا پیاده‌سازی می‌کنیم. الگوریتم دو رشته   و   را به عنوان ورودی دریافت می‌کند(شکل ۲). الگوریتم مقادیر   که نشان دهدنده طول LCS است را داخل آرایه   ذخیره می‌کند. عناصر آرایه به ترتیب row-major پر می‌شوند. یهنی ابتدا اولین سطر c به ترتیب از چپ به راست پر می‌شود، سپس سطر دوم و الی آخر. علاوه بر این الگوریتم آرایه دیگری به نام   را نیز پر می‌کند. این آرایه جهت حرکت را ذخیره می‌کند.

 
شکل ۲

مقدار b با علامت‌های جهت   پر می‌شود. همین طور مقدار   به این بستگی دارد که آیا   باشد (خط ۹). جهت فلش‌ها طوری انتخاب می‌شود که همواره حرکت به سمت خانه‌ای با طول LCS بزرکتر را تضمین می‌کند. در نهایت برای پیدا کردن LCS از گوشه سمت راست و پایین آرایه b در جهت پیکان‌ها به سمت گوشه بالا و چپ آرایه حرکت می‌کنیم.

function print_LCS (b,X,i,j)
  if i=0 or j=0 then
     return
  if b[i,j] = ' ' then
     print_LCS(b,X,i-1,j-1)
     print  
  else if b[i,j]= ' ' then
     print_LCS(b,X,i-1,j)
  else print_LCS(b,X,i,j-1)

پیچیدگی زمانی

ویرایش

زمانی که تعداد دنباله‌های ورودی ثابت باشند٫ این مسئله توسط برنامه‌نویسی پویا در زمان چندجمله‌ای حل می‌شود. فرض کنید N دنباله ورودی به طول   داشته باشیم. یک راه حل ابتدایی برای جستجوی LCS این است که هر یک از  زیردنباله دنباله اولی را برررسی کنیم که آیا زیر دنباله برای دیگر دنباله‌های ورودی است یا خیر. هر زیر ددنباله در زمانی خطی متناسب با طول دنباله‌های باقی‌مانده بررسی می‌شود. بنابراین زمان الگوریتم برابر خواهد بود با:  برای حالت ورودی با دو دنباله با n و m عنصر٫ پیچیدگی زمانی الگوریتم برابر   خواهد بود. برای تعداد ورودی‌های دلخواه برنامه‌نویسی پویا راه حلی با این زمان ارائه می‌کند: 

توابعی با پیچیدگی کمتر موجود است،[۱]

پانویس‌ها

ویرایش
  1. L. Bergroth and H. Hakonen and T. Raita (۲۰۰۰), "A Survey of Longest Common Subsequence Algorithms", SPIRE (به انگلیسی), IEEE Computer Society, vol. ۰۰, p. ۳۹–۴۸ {{citation}}: External link in |شاپا= (help)

منابع

ویرایش