هم‌ترازسازی توالی

در بیوانفورماتیک، هم‌تراز کردن توالی (به انگلیسی: Sequence Alignment) به روش‌های مرتب کردن توالی‌های آران‌ای، دی‌ان‌ای و پروتئین گفته می‌شود به‌طوری‌که مکان‌های مشابهت بین توالی‌ها را مشخص کند. این مکان‌های مشابهت بین دو یا چند توالی، می‌تواند نشانگر ارتباط عملکردی، ساختاری یا تکاملی مابین توالی‌ها باشد. توالی‌ یک دی‌ان‌ای یا آران‌ای، دنباله‌ای از نوکلئوتیدهای تشکیل دهندۀ آن و توالی یک پروتئین، دنباله‌ای از پس مانده‌های تقطیر اسیدهای آمینه آن است. توالی‌های هم‌تراز شده را معمولاً به شکل سطرهایی زیر هم درون یک ماتریس نشان می‌دهند. در صورت لزوم در برخی مکان‌های توالی بین نوکلئوتیدها(پس مانده‌ها) فاصله اضافه می‌کنند تا در چند ستون پی در پی کاراکترهای یکسان زیر هم قرار بگیرند.

هم‌تراز شده توالی‌های دو پروتئین موجود در بدن انسان. هم‌تراز کردن توسط نرم افزار کلاستال انجام شده‌است. دو پروتئین هم‌تراز شده، پروتئین‌های zinc finger هستند که کد آن‌ها در ژن‌بانک در سمت چپ نشان داده شده‌است. حروف رنگی نشان دهندۀ اسیدهای آمینه هستند. '*' نشان دهندۀ همانند بودن، ':' نشان دهندۀ جانشینی حفظ شده، '.' نشان دهندۀ جانشینی نیمه حفظ شده و '-' نشان دهندۀ فاصله می‌باشد.

هم‌تراز کردن توالی‌ها برای دنباله‌های غیر زیستی مانند دنباله‌های موجود در زبان‌های طبیعی یا داده‌های مالی نیز استفاده می‌شود.

تفسیر زیستیویرایش

اگر دو توالی‌ که هم‌تراز کردن بر روی آن‌ها صورت می‌گیرد دارای یک جد مشترک باشند، پس از هم‌تراز کردن، مکان‌هایی که دو دنباله با یکدیگر مطابقت ندارند را می‌توان به عنوان جهش نقطه‌ای تفسیر کرد. همچنین فاصله‌ها را می‌توان به عنوان جهش رخنه‌ای یا جهش حذفی در یکی یا هر دو از اجداد در هنگام انشعاب یافتن از یکدیگر تفسیر کرد. در هم‌تراز کردن توالی‌های پروتئینی، درجه شباهت بین اسیدهای آمینه یک ناحیه خاص در توالی را می‌توان به عنوان مقیاسی برای اینکه یک منطقه چقدر بین اجداد حفظ شده‌است در نظر گرفت. عدم وجود جانشینی یا وجود تنها تعدادی جانشینی بسیار حفظ شده(جانشینی اسیدهای آمینه‌ای که زنجیره‌های جانبی‌اشان خواص بیوشمیایی مشابه دارند) در ناحیه‌ای خاص از توالی، این ناحیه را به عنوان ناحیه‌ای مهم از لحاظ ساختاری یا کارکردی پیشنهاد می‌دهد. هر چند در دی‌ان‌ای و آران‌ای بازهای نوکلئوتیدها نسبت به آمینواسیدها بیشتر به هم شباهت دارند، جفت بازهای حفظ شده نیز می‌توانند نشان دهندۀ وظیفۀ ساختاری یا کارکردی مشابه باشند.

روش‌های هم‌تراز کردنویرایش

توالی‌های بسیار کوچک یا بسیار مشابه می‌توانند به صورت دستی هم‌تراز شوند. اما، اکثر مسائل جالب توجه نیاز به هم‌تراز کردن توالی‌های طولانی، بسیار متغیر یا با تعداد بسیار زیاد دارند که نمی‌توانند تنها توسط تلاش انسانی هم‌تراز شوند. در عوض، دانش انسان، در ساختن الگوریتم‌هایی که هم‌تراز کردن توالی‌ها را با کیفیت بالا را انجام می‌دهند، و گاهی در تنظیم نتایج نهایی برای منعکس ساختن الگوهایی که نمایش آن‌ها به صورت الگوریتمی سخت است ( مخصوصاً در مورد توالی‌های نوکلوئوتیدی )، به کار می‌رود. رویکردهای محاسباتی برای هم‌تراز کردن توالی‌ها به‌طور کلی در دو دسته جا می‌گیرد: هم‌تراز کردن سراسری و هم‌تراز کردن محلی. محاسبه هم‌ترازی سراسری، شکلی از بهینه‌سازی سراسری است که به هم‌ترازی فشار می‌آورد تا در کل طول توالی‌های مورد جستجو گسترده شود. بلعکس، هم‌تراز کردن محلی، نواحی مشابه درون توالی‌های بلند را که معمولاً در طول توالی بسیار متفاوت اند، تشخیص می‌دهد. معمولاً هم‌تراز کردن محلی ترجیح داده می‌شود، اما محاسبه‌اش می‌تواند به علت مشکلات تشخیص نواحی مشابه، مشکل تر باشد. الگوریتم‌های محاسباتی گوناگونی برای مسئله هم‌تراز کردن توالی‌ها به کار رفته است، که شامل روش‌های آهسته ولی بهینه‌کننده‌ای مانند برنامه‌ریزی پویا، و روش‌های کارآمد اما نه دارای الگوریتم‌های کاملاً ابتکاری یا روش‌های احتمالاتی، که برای جستجو در پایگاه داده‌های در مقیاس بزرگ به کار می‌رود، می‌باشد.

شیوه‌های نمایشویرایش

به‌طور معمول هم‌ترازی‌ توالی‌ها هم به صورت گرافیکی و هم در قالب متنی ارائه می‌شود. در اکثر روش‌های نمایش هم‌ترازی توالی‌ها، توالی‌ها به صورت سطری مرتب و نوشته می‌شوند، به‌طوری‌که در نتیجه، پس ماندهای هم‌تراز شده درستون‌های پشت سر هم ظاهر می‌شوند. در قالب‌های متنی، ستون‌های هم‌تراز شده شامل کاراکترهای یکسان یا مشابه، با سیستمی از سمبل‌های محافظت شده نمایش داده می‌شوند. همان‌طور که در تصویر بالا می‌بینید، سمبل ستاره و سمبل پایپ برای نشان دادن یکسان بودن دو ستون استفاده شده‌است؛ بقیه نشانه‌های کمتر معمول شامل دو نقطه برای جانشینی محافظت شده و نقطه برای جانشینی نیمه محافظت شده‌است. بسیاری از برنامه‌های مشاهده توالی از رنگ‌ها نیز برای نمایش اطلاعات دربارهٔ ویژگی‌های عناصر توالی به صورت تکی استفاده می‌کند؛ در توالی‌های دی‌ان‌ای و آران‌ای، این کار معادل نشان دادن هرنوع نوکلئوتید با یک رنگ ویژه آن می‌باشد. در هم‌ترازی‌های پروتئین‌ها، مانند تصویر بالا، رنگ‌ کردن معمولاً برای نشان دادن خصوصیات اسیدهای آمینه استفاده می‌شود که به تشخیص جانشینی‌های حفظ شدۀ یک آمینو اسید مشخص کمک می‌کند. برای چند توالی با هم، آخرین سطر در هر ستون معمولاً توالی توافقی است که توسط هم‌ترازی تعیین شده‌است؛ توالی توافقی همچنین معمولاً در قالب گرافیکی با یک لوگو که اندازه هرحرف نوکلئوتید یا اسید آمینه در آن متناظر با درجه حفاظت شدگی آن است، نمایش داده می‌شود.

هم‌ترازی توالی‌ها می‌تواند به شکل‌های گوناگونی در قالب‌های فایل‌های متنی ذخیره شود، که بسیاری از این قالب‌ها در آغاز از برنامه‌های هم‌تراز کردن خاصی تولید شده‌اند. اکثر ابزارهای مبتنی بر وب تعداد محدودی قالب ورودی و خروجی را پشتیبانی می‌کنند؛ مانند قالب FASTA و قالب ژن بانک، و خروجی‌اشان نیز به سادگی قابل ویرایش نیست. چند برنامه نیز برای تبدیل قالب‌های مختلف به یکدیگر موجود است، مانند READSEQ یا EMBOSS که دارای واسط کاربر گرافیکی یا نوشتاری هستند. همچنین بسته‌های برنامه‌سازی مانند بیوپرل و BioRuby توابعی را برای انجام این کار فراهم کرده‌اند.

هم‌تراز کردن سراسری و هم‌تراز کردن محلیویرایش

 
مثالی از هم‌تراز کردن سراسری و هم‌تراز کردن محلی که نشان دهندۀ وضعیت گپی هم‌تراز کردن سراسری است که موقعی رخ می‌دهد که توالی‌ها به اندازۀ کافی شبیه نباشند.

هم‌تراز کردن سراسری، که تلاش می‌کند هر پس ماندی را در هر توالی هم‌تراز کند، وقتی توالی‌های مجموعۀ جستجو مشابه هستند و کاملاً اندازه یکسانی دارند، بهترین کاربرد را دارد( این به معنی آن نیست که هم‌ترازی سراسری در فواصل ( گپ) نمی‌تواند پایان یابد). یک تکنیک عمومی هم‌تراز کردن سراسری، الگوریتم نیدلمن–وانچ است، که بر پایه برنامه‌ریزی پویا است. هم‌تراز کردن محلی برای توالی‌های غیر مشابه که مظنون به داشتن نواحی همانندی یا داشتن موتیف‌های مشابه درون فضای بزرگتر توالی‌اشان هستند، مفیدتر می‌باشد. الگوریتم اسمیت-واترمن یک روش عمومی هم‌تراز کردن محلی است که آن نیز برپایه برنامه‌ریزی پویا است. برای توالی‌هایی که به اندازه کافی شبیه باشند، تفاوتی بین هم‌ترازی محلی و سراسری وجود ندارد.

روش‌های ترکیبی، که با عنوان روش‌های نیمه سراسری یا "سرامحلی" شناخته می‌شوند، تلاش می‌کنند تا بهترین هم‌ترازی ممکن که شامل ابتدا و انتهای یکی از توالی‌ها باشد را بیابند. این ایده می‌تواند به ویژه وقتی پایین دست یک توالی با بالا دست توالی دیگر هم‌پوشانی دارد، مفید باشد. در این حالت، نه هم‌تراز کردن سراسری و نه محلی کاملاً مناسب نیست: در حالی که هم‌تراز کردن محلی نمی‌تواند کاملاً منطقه هم‌پوشانی را بپوشاند، هم‌ترازی سراسری تلاش می‌کند تا بر هم‌تراز کردن فشار آورد تا در آنسوی منطقۀ هم‌پوشانی گسترش یابد.

هم‌تراز کردن دوبدوویرایش

روش‌های هم‌تراز کردن دوبدو، برای پیدا کردن بهترین هم‌ترازی جور تکه‌ای محلی یا سراسری دو توالی مورد استفاده قرار می‌گیرد. هم‌تراز کردن دوبدو می‌تواند تنها بین دو توالی در یک زمان مورد استفاده قرار گیرد، اما از لحاظ محاسباتی کارآمد است و معمولاً برای روش‌هایی که نیاز به دقت بسیار زیادی ندارند (مانند جستجوی یک پایگاه داده‌ برای یافتن توالی‌های با تشابه بالا با توالی مورد جستجو) مورد استفاده قرار می‌گیرد. سه روش اولیه برای تولید هم‌ترازی دوبدو؛ روش ماتریس–نقطه، برنامه‌ریزی پویا، و روش‌های کلمه‌ای است؛ البته تکنیک‌های هم‌تراز کردن چندین توالی می‌تواند توالی‌های دوبدو را نیز هم‌تراز کند. اگرچه هر روش، نقاط قوت و ضعف خود را دارد، هر سه روش هم‌تراز کردن دوبدو دارای مشکلاتی در توالی‌های تکرار شونده بالا با محتوای اطلاعاتی کم می‌باشند-مخصوصا جایی که تعداد تکرارها در دوتوالی‌ای که قرار است هم‌تراز شوند متفاوت باشند. یک روش برای تعیین سودمندی یک هم‌ترازی دوبدو داده شده "حداکثر جفت‌های یکتا"، یا بزرگترین زیر دنباله‌ای که در هر دو توالی اتفاق می افتد، می‌باشد. از توالی‌های با حداکثر جفت‌های یکتای بلندتر، نوعا ارتباط نزدیک‌تری نتیجه می‌شود.

روش‌های ماتریس-نقطهویرایش

 
نمودار نقطه‌ای دی‌ان‌ای برای فاکتور نسخه برداری zinc finger انسان(شناسه ژن‌بانک: NM_002383)، که نشان دهندۀ خود-همانندی ناحیه‌ای است. قطر اصلی، هم‌ترازی توالی با خودش را نشان می‌دهد؛ خطوط خارج از قطر اصلی، الگوهای تکراری یا همانند درون توالی را نشان می‌دهد.

رویکرد ماتریس–نقطه، که یک خانواده از هم‌ترازی‌ها برای مناطق هر توالی تولید می‌کند، از نظر مقداری و مفهومی ساده است، با این وجود برای آنالیز در یک مقیاس بزرگ، زمان بر است. در غیاب نویز، می‌توان به سادگی برخی از ویژگی‌های توالی را-مانند درج‌ها، حذف‌ها، تکرارها، یا تکرارهای معکوس شده- به صورت دیداری در یک نمودار ماتریس-نقطه‌ای تشخیص داد. برای ساخت یک طرح ماتریس-نقطه، دو توالی در امتداد بالاترین سطر و چپ‌ترین ستون از یک ماتریس دو بعدی نوشته می‌شود و سپس در هر مکانی که دو کاراکتر، سطر و ستون آن‌ها با یکدیگر منطبق بود، یک نقطه گذاشته می‌شود. بعضی از پیاده‌سازی‌های این روش، اندازه و شدت هر نقطه را بسته به درجه تشابه دو کاراکتر تغییر می‌دهند تا جانشینی‌های حفظ شده را معین کنند. در این روش، نمودار نقطه‌ای توالی‌های بسیار نزدیک به هم، به صورت یک خط در امتداد قطر اصلی ماتریس ظاهر می‌شود.

مشکلات نمودارهای نقطه‌ای، به عنوان یک تکنیک نمایش اطلاعات، شامل مواردی چون: نویز، کمبود وضوح، عدم درک مستقیم وشهودی، و دشواری استخراج خلاصه آماری جورشده‌ها و مکان‌های جور روی دو توالی است. همچنین فضای هدر رفته بیشتری در جاییکه اطلاعات جورها در طول قطر تکثیرشده‌اند و اکثر فضای نمودار خالی است یا توسط نویز اشغال شده‌است، وجود دارد؛ و نهایتا، نمودارهای نقطه‌ای برای دو توالی محدود شده‌اند. هیچ‌کدام از این محدودیت‌ها در دیاگرام‌های هم‌ترازی Miropeats وجود ندارد اما آن‌ها نیز عیب‌های خاص خود را دارند.

نمودارهای نقطه‌ای همچنین می‌توانند برای تعیین تکرار شوندگی در یک توالی منفرد استفاده شوند. یک توالی می‌تواند با خودش هم‌تراز شود و نواحی که تشابهات مهمی را مشترک هستند به صورت خطوطی خارج از قطر اصلی ظاهر می‌شوند. این اثر می‌تواند هنگامی که پروتئینی دارای چند حوزۀ مشابه است اتفاق بیافتد.

منابعویرایش

مشارکت‌کنندگان ویکی‌پدیا. «Sequence alignment». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۶ ژوئن ۲۰۱۱.