همگذاری ازسرنو ترانسکریپتوم: تفاوت میان نسخهها
محتوای حذفشده محتوای افزودهشده
صفحهای تازه حاوی «'''همگذار ازسرنو ترانسکریپتوم'''، یک روش همگذاری دنبالهی de novo یا ازسرن...» ایجاد کرد |
بدون خلاصۀ ویرایش |
||
خط ۳:
== مقدمه ==
به دنبال توسعهی تکنولوژیهای جدید برای توالییابی، در سالهای 2008 تا 2012 کاهش شدیدی در هزینهی توالییابی اتفاق افتاد. هزینهی تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به 1/100,000 و 1/10,000 هزینهی قبلی، کاهش پیدا کرد.<ref> Wetterstrand KA. "DNA Sequencing Costs: Data from the NHGRI Large-Scale Genome Sequencing Program Available at: www.genome.gov/sequencingcosts". Genome.gov.</ref> مهمتر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزهی تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آنها فراهم تر بود توالییابی میشدند. با اینحال، این تکنولوژیهای تازه توسعه یافتهی نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینهتر هستند و تعداد موجوداتی که از این روشها مطالعه میشوند در حال گسترش است.<ref> Surget-Groba Y, Montoya-Burgos JI (2010). "Optimization of de novo transcriptome assembly from next-generation sequencing data". Genome Res. 20 (10): 1432–1440. PMC 2945192 Freely accessible. PMID 20693479. doi:10.1101/gr.103846.109.</ref> برای نمونه ترانسکریپتوم موجوداتی مانند [[نخود]]<ref>Garg R, Patel RK, Tyagi AK, Jain M (2011). "De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification". DNA Res. 18 (1): 53–63. PMC 3041503 Freely accessible. PMID 21217129. doi:10.1093/dnares/dsq028.</ref>، [[پلاناریا]] (Planarian)<ref> Adamidi C; et al. (2011). "De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics". Genome Res. 21 (7): 1193–1200. PMC 3129261 Freely accessible. PMID 21536722. doi:10.1101/gr.113779.110.</ref> و [[پارائیالا هاواییس]]<ref> Zeng V; et al. (2011). "De novo assembly and characterization of a maternal and developmental transcriptome for the emerging model crustacean Parhyale hawaiensis" (PDF). BMC Genomics. 12: 581. PMC 3282834 Freely accessible. PMID 22118449. doi:10.1186/1471-2164-12-581</ref> و همینطور دنبالهی مغز موجوداتی شامل [[تمساح نیل]]، [[مار ذرت]] و [[لاکپشت گوشقرمز]] ساخته شده است.<ref> Tzika AC; et al. (2011). "Reptilian transcriptome v1.0, a glimpse in the brain transcriptome of five divergent Sauropsida lineages and the phylogenetic position of turtles" (PDF). EvoDevo. 2 (1): 19. PMC 3192992 Freely accessible. PMID 21943375. doi:10.1186/2041-9139-2-19.</ref>
بررسی موجودات غیر مدل میتواند دید جدیدی از مکانیزمهای زیربنای "تنوع نوآوریهای شگفتانگیز مورفولوژیکی" که فراوانی زندگی روی سیارهی زمین را ممکن ساخته، فراهم کند. "نوآوری"هایی که در حیوانات و گیاهان وجود دارد و نمیتوان آنها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، [[همزیستی دوسویه]]، [[پاراتیزیسم]] و [[تولید مثل غیرجنسی|تولید مثل غیرجنسی]] میباشد.<ref>Rowan BA, Weigel D, Koenig D (2011). "Developmental genetics and new sequencing technologies: the rise of nonmodel organisms". Developmental Cell. 21 (1): 65–76. PMID 21763609. doi:10.1016/j.devcel.2011.05.021.</ref> همگذاری ازسرنو ترانسکریپتوم معمولا روشی است که در مطالعهی موجودات غیر مدل ترجیح داده میشود، زیرا این روش کمهزینهتر و آسانتر از ساخت ژنوم است و متدهای مبتنی بر مرجع بدون وجود ژنوم امکانپذیر نیستند. ترانسکریپتوم این موجودات میتواند پروتئینهای جدید و ایزوفورمهای آنها را که در اینچنین آثار یکتای زیستی وجود دارند آشکار سازد.
=== همگذاری ازسرنو در مقایسه با روش مبتنی بر مرجع ===
مجموعهای از ترانسکریپتهای همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و میکنند. پیش از توسعهی برنامههای کامپیوتریِ همگذاری ترانسکریپتوم، دادههای ترانسکریپتوم ابتدائا با نگاشت روی ژنوم مرجع تحلیل میشدند. اگرچه همردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت میباشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپهای mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینهای ندارد.<ref name=":0">Birol I; et al. (2009). "De novo transcriptome assembly with ABySS". Bioinformatics. 25: 2872–7. PMID 19528083. doi:10.1093/bioinformatics/btp367.</ref> ژنوم شامل همه ی [[اینترون|اینترون]]<nowiki/>ها و [[اگزون|اگزون]]<nowiki/>هایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزون ها را (نه لزوما تمام آنها را) دقیقا به ترتیب آمدنشان در ژنوم، کنار هم قرار میدهد که این میتواند به نوعی ایزوفورمهای مختلف [[پروتئین]] را بسازند و همین تنوع در آمدن اگزومهاست که باعث این تنوع و تفاوت میشود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری ازسرنو باید انجام گیرد، این کار ترانسکریپتهایی را که از بخشهایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کرده است را پوشش میدهد.<ref name=":1">Martin, Jeffrey A.; Wang, Zhong. "Next-generation transcriptome assembly". Nature Reviews Genetics. 12 (10): 671–682. doi:10.1038/nrg3068.</ref>
=== همگذاری ترانسکریپتوم در مقایسه با ژنوم ===
برخلاف سطح پوشش دنبالهی ژنوم- که در نتیجهی محتوای تکراری در نواحی غیر کدینگ اینترون دیانای، میتواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیما نشاندهندهی سطح بیان ژنهاست. این توالیهای تکرار شده همچنین میتوانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرآیند همگذاری ترانسکریپتوم، معمولا به ایزوفورمهای تقسیم شده یا تنوع جزئی مربوط به اعضای خانوادهای از ژنها ارتباط دارد.<ref name=":0" /> همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمیتواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولا به اندازه سراسر طول ژنوم میباشد، اما عمق ترانسکریپتوم میتواند متنوع باشد. دوم اینکه هر دو رشتهی دیانای همیشه در ژنوم [[توالییابی]] میشوند، اما دادهی RNA-seq میتواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، میتواند با استفاده از اگزونهای مختلف و ترکیب آنها ایجاد شده باشد و حل این ابهام و چندگانگی سختتر است.<ref name=":1" />
== انواع روشها ==
=== Rna-seq ===
پس از اینکه [[آرانای|آرانای]] از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزارهای توالییابی با توان عملکردی بالا داده میشود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت [[آنزیم رونوشت بردار معکوس|معکوس رونویسی]] میشود تا cDNA یا [[دیانای مکمل]] ساخته شود. سپس این cDNA بر حسب پلتفرمی که استفاده میشود میتواند به طولهای منتوعی تقسیمبندی شود. هر کدام از پلتفرمهایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیونها read کوتاه را بکار میگیرد: 454 Sequencing, [[ایلومینا|Illumina]] و SOLiD.
=== الگوریتمهای همگذاری ===
Read های توالی cDNA ها بوسیلهی برنامههای همگذاری ترانسکریپت، به ترانسکریپت همگذار میشوند. به احتمال زیاد تنوع بعضی از [[آمینواسید|آمینواسید]]<nowiki/>ها بین ترانسکریپتها، که به طریق دیگری مشابه هستند، [[ایزوفورون|ایزوفورم]]<nowiki/>های متفاوت پروتئینها را ایجاد میکنند. همچنین ممکن است ژنهای متفاوت در یک خانوادهی مشابه را نشان دهند، یا میتواند ژنهایی باشند که فقط بخش حفاظت شدهای از ترانسکریپت را به اشتراک دارند و این بستگی به درجهی تنوع آنها دارد.
تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامهها در همگذاری ژنوم موفق عملکردهاند، همگذاری ترانسکریپتوم چالشهای منحصربفرد خودش را دارد. درحالیکه پوشش بالای توالی برای ژنوم، میتواند نشان دهندهی وجود توالیهای تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، میتواند نشان دهندهی فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم میتواند یک رشتهای باشد. نهایتا بازسازی ایزوفورمهای تقسیم شده میتواند سخت باشد.<ref name=":1" />
همگذارهای read های کوتاه، معمولا یکی از این دوالگوریتم پایهای را انتخاب میکنند: گراف همپوشانی و گراف دی براین. گراف همپوشانی برای بیشتر همگذاریهایی بکار گرفته میشود که برای توالییابی با [[توالییابی به روش سنگر|تکنولوژی Sanger]] طراحی شدهاند. همپوشانی بین هر جفت از readها محاسبه میشود و به یک گراف، ترجمه و تبدیل میشود که در آن هر گره نشاندهندهی دنبالهی یک read است. این الگوریتم از نظر محاسباتی سنگین تر از [[گراف دی براین|گراف دیبراین]] است، همچنین در همگذاریِ تعداد کمتری از read های با درجهی بالاتری از همپوشانی، موثرتر عمل میکند. گراف دی براین، k تاییهای متوالی موجود در هر read را (معمولا بین 25 تا 50 باز) بر اساس دنبالهی k-1 تایی محافظت شده، همگذاری میکند تا contig ها را بسازد. استفاده از k-تاییهایی که طول کوتاهتری از خود read ها دارند- در گراف دیبراین، باعث کاهش شدت محاسباتی این روش میشود.<ref> Illumina, Inc. (2010). "De Novo Assembly Using Illumina Reads" (PDF).</ref>
=== تفسیر کاربردی ===
تفسیر کاربردی ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفههای سلولی و فرآیندهای زیستیای که احتمالا پروتئینهایی در آن ها درگیر هستند، میدهد. Blast2GO ، هستیشناسی ژنی را (Gene Ontology که به صورت GO مخفف میشود) برای ژنهایی که در حال حاضر هیچ تفسیر هستی شناسی برایشان در دسترس نداریم، براساس کاوش داده برای تفسیر دنبالهی دادهها میسر میکند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونههای غیر مدل اعمال میشود.<ref> Conesa A; et al. (2005). "Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research". Bioinformatics. 21 (18): 3674–3676. PMID 16081474. doi:10.1093/bioinformatics/bti610.</ref> نحوهی کارکردش به این صورت است که contig های همگذار شده را بین پایگاه دادههای پروتئینهای غیر مدل (در NCBI) [[بلاست]] میکند، سپس بر اساس تشابه دنبالهای، آنها را تفسیر میکند. Goanna یکی دیگر از برنامههای تفسیر هستی شناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه دادهی (تایید آزمایشگاهی شدهی) AgBase به عنوان سلسلهی قابل دسترس برای ابزارهای محاسباتیِ تفسیر و تحلیل GO است.<ref> McCarthy FM; et al. (2006). "AgBase: a functional genomics resource for agriculture". BMC Genomics. 7: 229. PMC 1618847 Freely accessible. PMID 16961921. doi:10.1186/1471-2164-7-229.</ref> تفسیرهای بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes تصویرسازی از فرآیندهای سوختوساز و شبکههای تعاملات سلولی در ترانسکریپتوم را فراهم میکند.<ref> "KEGG PATHWAY Database".</ref>
=== تایید و کنترل کیفیت ===
زمانی که ژنوم مرجع موجود نیست، کیفیت contig های همگذار شده باید تایید شود. این تایید یا از طریق مقایسه دنبالههای تولید شده با read هایی که از آنها ساخته شده است بدون نیاز به مرجع انجام میگیرد، یا با همردیفی دنبالههای محافظت شدهی حوزهی ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونههای مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate<ref> Transrate: understand your transcriptome assembly. http://hibberdlab.com/transrate</ref> و DETONATE<ref>Li B; et al. (2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15: 553. doi:10.1186/s13059-014-0553-5.</ref> امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم میکنند. یک روش دیگر، طراحی پرایمرهای PCR ([[واکنش زنجیرهای پلیمراز]]) برای ترانسکریپت پیشبینی شده است، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولا ، read های کوتاه فیلتر میشوند و بیرون داده میشوند. دنبالههای کوتاه (کمتر از 40 آمینواسید) بعید است پروتئینهای کاربردی را نشان دهند.<ref> Karplus, K. pdb-1: Minimum length of Protein Sequence. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.</ref>
== همگذارها ==
در ادامه، خلاصهای از نرمافزارها و ابزارهایی که برای تولید ترانسکریپتوم استفاده شدهاند و همچنین در مقالات علمی به آنها اشاره شده است، آورده شده:
=== seqMan NGen ===
seqMan NGen، به عنوان بخشی از نرمافزار DNASTAR شامل یک همگذار ترانسکریپتوم ازسرنو برای مجموعه دادههای بزرگ یا کوچک ترانسکریپتوم میباشد. seqMan NGen از یک الگوریتمِ ساختهشده استفاده میکند که RefSeq را برای شناسایی و ادغام ترانسکریپتها بهینه میکند، و به صورت خودکار ترانسکریپتهای همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژنهای جدید و شناخته شده، تفسیر میکند.
=== SOAPdenovo-Trans ===
SOAPdenovo-Trans یک همگذار ترانسکریپتوم ازسرنو است که از چارچوب SOAPdenovo2 گرفته شده است و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شده است. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامعتر و کاملتری برای ساخت کامل ترانسکریپتوم فراهم کرده است.
=== Velvet/Oases ===
الگوریتم velvet از گراف دیبراین برای همگذاری ترانسکریپت استفاده میکند. در شبیهسازی، Velvet میتواند contig هایی با معیار N50 برابر 50-kb را با استفاده از دادهی پروکاریوت، و تا N50 برابر 3-kb در کروموزومهای مصنوعی باکتریایی پستانداران تولید کند.<ref> Zerbino DR, Birney E (2008). "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs". Genome Res. 18 (5): 821–829. PMC 2336801 Freely accessible. PMID 18349386. doi:10.1101/gr.074492.107.</ref> ترانسکریپتهای اولیه به [[واحه]] تبدیل میشوند، که خود واحهها از read های جفت دوطرفه و readهای طولانی برای ساخت ایزوفورمهای ترانسکریپت استفاده میکنند.<ref> "Oases: de novo transcriptome assembler for very short reads".</ref>
=== Trans-ABySS ===
ABySS یک همگذار دنبالهی paired end است که موازی کار میکند. Trans-ABySS نرمافزاری است که به زبان [[پایتون (زبان برنامهنویسی)|پایتون]] و [[پرل]] برای تحلیل contig های ترانسکریپتومِ همگذار شده توسط ABySS نوشته شده است. این نرمافزار میتواند برای همگذاریهای بازهی بزرگی از مقادیر k اعمال شود. ابتدا مجموعه دادهها را به مجموعهی کوچکتری از contigهای غیر همپوشان کاهش میدهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزونهای جدید، اینترونهای حفظ شده، اینترونهای جدید و جابجایی جایگزینی را تشخیص میدهد. این الگوریتم همچنین میتواند سطح بیان ژنها را نیز تخمین بزند، مکانهای محتمل [[چندآدنینیشدن|چندآدنینی شدن]] را شناسایی کند و ژنهای کاندیدِ ادغام را تشخیص دهد.[https://github.com/trinityrnaseq/trinityrnaseq/wiki <ref> "Trans-ABySS: Analyze ABySS multi-k assembled shotgun transcriptome data".</ref>]
=== Trinity ===
ابزار Trinity ابتدا دنبالهی دادهها را به تعدادی گراف دیبراین تبدیل میکند، سپس ایزوفورمهای پیوند شده با طول کامل را استخراج میکند و ترانسکریپتهای استخراج شده از [[همساختشناسی|ژنهای parqalogous]] از هر گراف دیبراین را به صورت جداگانه شناسایی میکند. Trinity از سه ماژل نرمافزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل میکنند، تشکیل شده است:
'''Inchworm''' ابتدا دادههای RNA-seq را به دنبالههای ترانسکریپت همگذار میکند، و معمولا برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید میکند، اما نهایتا فقط بخشهای یکتایی از ترانسکریپت پیوند زده شدهی جایگزین را گزارش میدهد.
'''Chrysalis''' در مرحلهی بعد، contig های Inchowrm را خوشهبندی میکند و برای هر خوشه گراف دیبراین را به صورت کامل میسازد. هر خوشه نمایشدهندهی پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعهای از ژنها که دارای بخش محافظتشدهی مشترکی هستند). Chrysalis سپس مجموعهی کامل read ها را بین این گرافهای مجزا بخشبندی میکند.
'''Butterfly''' سپس هر گراف را به صورت موازی پردازش میکند و مسیر read ها را در گراف دنبال میکند و نهایتا ترانسکریپت کامل را برای ایزوفورمهای پیوند زده شدهی جایگزین گزارش میکند.<ref> "Trinity RNA-Seq Assembly – software for the reconstruction of full-length transcripts and alternatively spliced isoforms". Archived from the original on July 12, 2011.</ref>
== منابع ==
|