کاربر:Z.navidi/صفحه تمرین: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده
Z.navidi (بحث | مشارکت‌ها)
جز فاصله
Z.navidi (بحث | مشارکت‌ها)
بدون خلاصۀ ویرایش
خط ۱:
در حوزه‌ی زیست مولکولی، اندازه‌گیری پروفایل بیان ژن معیاری از فعالیت هزاران [[ژن]] به صورت یکجا، برای ایجاد یک تصویر عمومی از کارکرد [[یاخته|سلول]] است. این پروفایل می‌تواند برای مثال بین سلول‌های فعال جدا از هم تمایز ایجاد کند، یا مشخص کند یک سلول چگونه به یک درمان واکنش نشان می‌دهد. بسیاری از آزمایش‌های در این سطح، کل [[ژنوم]] را به صورت هم‌زمان، برای هر ژن، در یک سلول خاص اندازه‌گیری می‌کنند.
'''همگذار از‌سر‌نو ترانسکریپتوم'''، یک روش همگذاری دنباله‌ی de novo یا از‌سر‌نو، برای ساخت رشته‌ی [[ترنسکریپتومیکس|ترانسکریپتومیکس]] بدون کمک گرفتن از [[ژنوم]] مرجع است.
 
تعداد زیادی تکنولوژی [[ترنسکریپتومیکس|ترانسکریپتوم]] برای تولید داده‌ی مورد نیاز برای آنالیز می‌تواند مورد استفاده واقع شود. [[ریزآرایه دی‌ان‌ای|ریزآرایه‌‌ی دی‌اِن‌اِی]] فعالیت نسبی یکسری ژن هدف را اندازه می‌گیرد. تکنولوژی‌های مبتنی بر دنباله، مانند [[توالی‌یابی آران‌ای]] علاوه بر سطح بیان ژن‌ها، اطلاعاتی از دنباله‌ی آن‌ها را نیز فراهم می‌کنند.
== مقدمه ==
به دنبال توسعه‌ی تکنولوژی‌های جدید برای توالی‌یابی، در سال‌های 2008 تا 2012 کاهش شدیدی در هزینه‌ی توالی‌یابی اتفاق افتاد. هزینه‌ی تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به 1/100,000 و 1/10,000 هزینه‌ی قبلی، کاهش پیدا کرد.<ref> Wetterstrand KA. "DNA Sequencing Costs: Data from the NHGRI Large-Scale Genome Sequencing Program Available at: www.genome.gov/sequencingcosts". Genome.gov.</ref> مهم‌تر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزه‌ی تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آن‌ها فراهم تر بود توالی‌یابی می‌شدند. با این‌حال، این تکنولوژی‌های تازه توسعه یافته‌ی نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینه‌تر هستند و تعداد موجوداتی که از این روش‌ها مطالعه می‌شوند در حال گسترش است.<ref> Surget-Groba Y, Montoya-Burgos JI (2010). "Optimization of de novo transcriptome assembly from next-generation sequencing data". Genome Res. 20 (10): 1432–1440. PMC 2945192 Freely accessible. PMID 20693479. doi:10.1101/gr.103846.109.</ref> برای نمونه ترانسکریپتوم موجوداتی مانند [[نخود]]<ref>Garg R, Patel RK, Tyagi AK, Jain M (2011). "De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification". DNA Res. 18 (1): 53–63. PMC 3041503 Freely accessible. PMID 21217129. doi:10.1093/dnares/dsq028.</ref>، [[پلاناریا]] (Planarian)<ref> Adamidi C; et al. (2011). "De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics". Genome Res. 21 (7): 1193–1200. PMC 3129261 Freely accessible. PMID 21536722. doi:10.1101/gr.113779.110.</ref> و [[پارائیالا هاواییس]]<ref> Zeng V; et al. (2011). "De novo assembly and characterization of a maternal and developmental transcriptome for the emerging model crustacean Parhyale hawaiensis" (PDF). BMC Genomics. 12: 581. PMC 3282834 Freely accessible. PMID 22118449. doi:10.1186/1471-2164-12-581</ref> و همینطور دنباله‌ی مغز موجوداتی شامل [[تمساح نیل]]، [[مار ذرت]] و [[لاک‌پشت گوش‌قرمز]] ساخته شده است.<ref> Tzika AC; et al. (2011). "Reptilian transcriptome v1.0, a glimpse in the brain transcriptome of five divergent Sauropsida lineages and the phylogenetic position of turtles" (PDF). EvoDevo. 2 (1): 19. PMC 3192992 Freely accessible. PMID 21943375. doi:10.1186/2041-9139-2-19.</ref>
 
== مقدمه ==
بررسی موجودات غیر مدل میتواند دید جدیدی از مکانیزم‌های زیربنای "تنوع نوآوری‌های شگفت‌انگیز مورفولوژیکی" که فراوانی زندگی روی سیاره‌ی زمین را ممکن ساخته، فراهم کند. "نوآوری"هایی که در حیوانات و گیاهان وجود دارد و نمیتوان آن‌ها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، [[هم‌زیستی دوسویه]]، [[پاراتیزیسم]] و [[تولید مثل غیرجنسی|تولید مثل غیر‌جنسی]] می‌باشد.<ref>Rowan BA, Weigel D, Koenig D (2011). "Developmental genetics and new sequencing technologies: the rise of nonmodel organisms". Developmental Cell. 21 (1): 65–76. PMID 21763609. doi:10.1016/j.devcel.2011.05.021.</ref> همگذاری از‌سر‌نو ترانسکریپتوم معمولا روشی است که در مطالعه‌ی موجودات غیر مدل ترجیح داده می‌شود، زیرا این روش کم‌هزینه‌تر و آسان‌تر از ساخت ژنوم است و متد‌های مبتنی بر مرجع بدون وجود ژنوم امکان‌پذیر نیستند. ترانسکریپتوم این موجودات می‌تواند پروتئین‌های جدید و ایزوفورم‌های آنها را که در این‌چنین آثار یکتای زیستی وجود دارند آشکار سازد.
 
بدست آوردن بیان ژن، مرحله‌ی منطقی پس از توالی‌یابی ژنوم است: دنباله‌ی ژنوم به ما این اطلاعات را می‌دهد که سلول چه فعالیت‌هایی انجام می‌دهد، در حالی که پروفایل بیان ژن مشخص می‌کند دقیقا در آن لحظه چه کارهایی انجام می‌شود. ژن‌ها شامل دستورهایی هستند که [[آران‌ای پیام‌رسان|آر‌اِن‌اِی‌های پیام‌رسان]] (mRNA)  را می‌سازند، اما در هر لحظه هر سلول فقط بخشی از ژن‌هایی که دارد را به mRNA تبدیل می‌کند. چنان‌چه ژنی، در حال تولید mRNA باشد، آن ژن "روشن" و در غیر این صورت "خاموش" در نظر گرفته می‌شود. معیار‌های زیادی مشخص می‌کنند که یک ژن روشن یا خاموش باشد، از جمله‌ی آن‌ها میتوان به زمان، محیطی که در آن قرار دارد و سیگنال‌های شیمیایی که از سلول‌های دیگر دریافت می‌کند اشاره کرد.
=== همگذاری از‌سر‌نو در مقایسه با روش مبتنی بر مرجع ===
مجموعه‌ای از ترانسکریپت‌های همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و می‌کنند. پیش از توسعه‌ی برنامه‌های کامپیوتریِ همگذاری ترانسکریپتوم، داده‌های ترانسکریپتوم ابتدائا با نگاشت روی ژنوم مرجع تحلیل می‌شدند. اگر‌چه هم‌ردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت می‌باشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپ‌های mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینه‌ای ندارد.<ref name=":0">Birol I; et al. (2009). "De novo transcriptome assembly with ABySS". Bioinformatics. 25: 2872–7. PMID 19528083. doi:10.1093/bioinformatics/btp367.</ref> ژنوم شامل همه‌ ی [[اینترون|اینترون‌]]<nowiki/>ها و [[اگزون|اگزون‌]]<nowiki/>هایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزون ها را (نه لزوما تمام آن‌ها را) دقیقا به ترتیب آمدنشان در ژنوم، کنار هم قرار میدهد که این می‌تواند به نوعی ایزوفورم‌های مختلف [[پروتئین]] را بسازند و همین تنوع در آمدن اگزوم‌هاست که باعث این تنوع و تفاوت می‌شود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری از‌سر‌نو باید انجام گیرد، این کار ترانسکریپت‌هایی را که از بخش‌هایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کرده است را پوشش می‌دهد.<ref name=":1">Martin, Jeffrey A.; Wang, Zhong. "Next-generation transcriptome assembly". Nature Reviews Genetics. 12 (10): 671–682. doi:10.1038/nrg3068.</ref>
 
بررسی پروفایل بیان ژن معمولا اندازه‌ی نسبی بیان mRNA ها را در دو یا چند شرایط آزمایشگاهی بدست می‌آورد. به این دلیل که تغییرات سطح بیان یک دنباله‌ی مشخص از mRNA، تغییراتی در پروتئین حاصل از آن ژن را نشان می‌دهد که می‌توان نماینده‌ی یک شرایط آسیب‌دیده یا پاسخ هم‌ایستایی باشد. برای مثال سطح بیان بالای mRNA ای که الکل dehydrogenase را کد می‌کند نشان دهنده‌ی این است که سلول‌ها یا بافت مورد بررسی، در حال پاسخ‌گویی به افزایش سطح اتانول در محیط است.
=== همگذاری ترانسکریپتوم در مقایسه با ژنوم ===
برخلاف سطح پوشش دنباله‌ی ژنوم- که در نتیجه‌ی محتوای تکراری در نواحی غیر کدینگ اینترون دی‌ان‌ای، می‌تواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیما نشان‌دهنده‌ی سطح بیان ژن‌هاست. این توالی‌های تکرار شده هم‌چنین می‌توانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرآیند همگذاری ترانسکریپتوم، معمولا به ایزوفورم‌های تقسیم شده یا تنوع جزئی مربوط به اعضای خانواده‌ای از ژن‌ها ارتباط دارد.<ref name=":0" /> همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمی‌تواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولا به اندازه سراسر طول ژنوم می‌باشد، اما عمق ترانسکریپتوم می‌تواند متنوع باشد. دوم اینکه هر دو رشته‌ی دی‌ان‌ای همیشه در ژنوم [[توالی‌یابی]] می‌شوند، اما داده‌ی RNA-seq می‌تواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، می‌تواند با استفاده از اگزون‌های مختلف و ترکیب آن‌ها ایجاد شده باشد و حل این ابهام و چندگانگی سخت‌تر است.<ref name=":1" />
 
مقایسه با پروتئومیک
== انواع روش‌ها ==
 
ژنوم انسان شامل حدود 5000 ژن می‌باشد که در حدود 1،000،000 پروتئین متفاوت را تولید می‌کنند. این به‌خاطر پیرایش جایگزین است و همین‌طور به خاطر اینکه سلول‌ها تغییراتی را پس از اینکه بار اول پروتئین را ایجاد کردند، در پروسه‌ی [[پیرایش پسارونویسی]] ایجاد می‌کنند، و در نتیجه، هر ژن می‌تواند پایه‌ای برای تولید نسخه‌های متفاوت [[پروتئین]] باشد. با یک آزمایش mass spectrometry می‌توان حدود 2000 پروتئین یا 0.2% از کل پروتئین‌ها را شناسایی کرد. اطلاعاتی که از خود پروتئین‌ها(پروتئومیک) بدست می‌آید از اطلاعاتی که از RNA های پیام‌رسان استخراج می‌شود دقیق‌تر است.
=== Rna-seq ===
پس از این‌که [[آران‌ای|آر‌ان‌ای]] از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزار‌های توالی‌یابی با توان عملکردی بالا داده می‌شود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت [[آنزیم رونوشت بردار معکوس|معکوس رونویسی]] می‌شود تا cDNA یا [[دی‌ان‌ای مکمل]] ساخته شود. سپس این cDNA  بر حسب پلت‌فرمی که استفاده می‌شود می‌تواند به طول‌های منتوعی تقسیم‌بندی شود. هر کدام از پلت‌فرم‌هایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیون‌ها read کوتاه را بکار میگیرد: 454 Sequencing, [[ایلومینا|Illumina]] و SOLiD.
 
کاربرد در تولید و آزمون فرضیه
=== الگوریتم‌های همگذاری ===
Read های توالی cDNA ها بوسیله‌ی برنامه‌های همگذاری ترانسکریپت، به ترانسکریپت همگذار می‌شوند. به احتمال زیاد تنوع بعضی از [[آمینواسید|آمینواسید‌]]<nowiki/>ها بین ترانسکریپت‌ها، که به طریق دیگری مشابه هستند، [[ایزوفورون|ایزوفورم‌]]<nowiki/>های متفاوت پروتئین‌ها را ایجاد می‌کنند. هم‌چنین ممکن است ژن‌های متفاوت در یک خانواده‌ی مشابه را نشان دهند، یا می‌تواند ژن‌هایی باشند که فقط بخش حفاظت شده‌ای از ترانسکریپت را به اشتراک دارند و این بستگی به درجه‌ی تنوع آن‌ها دارد.
 
در بعضی مواقع، یک دانشمند فرضیه‌ای در ذهن دارد و در مورد اتفاقاتی که ممکن است بیفتد ایده‌هایی دارد، و با انجام آزمایش‌های پروفایل بیان ژن سعی دارد این فرضیه را رد کند. در حقیقت دانشمند پیش‌بینی‌ای در مورد سطح بیان سلولی می‌کند که ممکن است اشتباه باشد.
تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامه‌ها در همگذاری ژنوم موفق عملکرده‌اند، همگذاری ترانسکریپتوم چالش‌های منحصر‌بفرد خودش را دارد. درحالی‌که پوشش بالای توالی برای ژنوم، می‌تواند نشان دهنده‌ی وجود توالی‌های تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، می‌تواند نشان دهنده‌ی فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم میتواند یک رشته‌ای باشد. نهایتا بازسازی ایزوفورم‌های تقسیم شده می‌تواند سخت باشد.<ref name=":1" />
 
معمولا پروفایل بیان ژن زمانی بدست آورده می‌شود که اطلاعات کاملی در مورد تعامل ژن‌ها با شرایط آزمایشگاهی در مورد یک فرضیه‌ی در حین آزمون نداریم. بدون هیچ فرضیه‌ای، چیزی برای انکار کردن یا اثبات کردن وجود ندارد، اما پروفایل بیان می‌تواند برای شناسایی فرض‌های کاندید برای آزمایش‌های آینده کمک‌کننده باشد. بسیاری از آزمایش‌های پروفایل بیان ژن ابتدایی و امروزی، به صورت "اکتشاف کلاس" شناسایی می‌شوند که به فرمی است که در ادامه توضیح داده می‌شود. روش معروف برای اکتشاف کلاس شامل گروه‌بندی کردن ژن‌ها یا نمونه‌های مشابه با استفاده از خوشه بندی کی_میانگین یا سلسله‌مراتبی می‌باشد. مستقل از روش خوشه‌بندی‌ای که مورد استفاده قرار می‌گیرد، نیاز است کاربر معیار فاصله‌ی مناسبی (فاصله یا شباهت) بین داده‌ها برگزیند. تصویر بالا خروجی خوشه‌ی دوبعدی را نشان می‌دهد، به طوریکه نمونه‌های مشابه (سطر‌ها) و پروب ژن‌های مشابه (ستون) به گونه‌ای مرتب شده‌اند که نزدیک هم قرار دارند. ساده‌ترین شکل اکتشاف کلاس، لیست کردن همه‌ی ژن‌هایی است که بین دو شرایط آزمایشگاهی بیشتر از یک حدی تغییر کرده‌اند.
همگذارهای read های کوتاه، معمولا یکی از این دوالگوریتم پایه‌ای را انتخاب می‌کنند: گراف هم‌پوشانی و گراف دی براین. گراف هم‌پوشانی برای بیشتر همگذاری‌هایی بکار گرفته می‌شود که برای توالی‌یابی با [[توالی‌یابی به روش سنگر|تکنولوژی Sanger]] طراحی شده‌اند. هم‌پوشانی بین هر جفت از readها محاسبه می‌شود و به یک گراف، ترجمه و تبدیل می‌شود که در آن هر گره نشان‌دهنده‌ی دنباله‌ی یک read است. این الگوریتم از نظر محاسباتی سنگین تر از [[گراف دی براین|گراف دی‌براین]] است، هم‌چنین در همگذاریِ تعداد کمتری از read های با درجه‌ی بالاتری از هم‌پوشانی، موثر‌تر عمل می‌کند. گراف دی براین، k تایی‌های متوالی موجود در هر read را (معمولا بین 25 تا 50 باز) بر اساس دنباله‌ی k-1 تایی محافظت شده، همگذاری می‌کند تا contig ها را بسازد. استفاده از k-تایی‌هایی که طول کوتاه‌تری از خود read ها دارند- در گراف دی‌براین، باعث کاهش شدت محاسباتی این روش می‌شود.<ref> Illumina, Inc. (2010). "De Novo Assembly Using Illumina Reads" (PDF).</ref>
 
پیش‌بینی کلاس از اکتشاف کلاس بسیار سخت‌تر است، اما این امکان را به افراد می‌دهد که به سوالات مهمی که مستقیما بالینی هستند پاسخ دهد. برای نمونه با دادن این پروفایل امکان این‌که بیمار به یک داروی خاص پاسخ دهد چقدر است؟ پاسخ به این سوال نیاز به تعداد زیادی نمونه از پروفایل دارد که به دارو پاسخ داده‌اند و تعدادی که پاسخ نداده‌اند.
=== تفسیر کاربردی ===
تفسیر کاربردی ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفه‌های سلولی و فرآیندهای زیستی‌ای که احتمالا پروتئین‌هایی در آن ها درگیر هستند، میدهد.  Blast2GO ، هستی‌شناسی ژنی را (Gene Ontology که به صورت GO مخفف می‌شود) برای ژن‌هایی که در حال حاضر هیچ تفسیر هستی شناسی برایشان در دسترس نداریم، بر‌اساس کاوش داده برای تفسیر دنباله‌ی داده‌ها میسر می‌کند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونه‌های غیر مدل اعمال می‌شود.<ref> Conesa A; et al. (2005). "Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research". Bioinformatics. 21 (18): 3674–3676. PMID 16081474. doi:10.1093/bioinformatics/bti610.</ref> نحوه‌ی کارکردش به این صورت است که contig های همگذار شده را بین پایگاه داده‌های پروتئین‌های غیر مدل (در NCBI) [[بلاست]] می‌کند، سپس بر اساس تشابه دنباله‌ای، آن‌ها را تفسیر می‌کند. Goanna یکی دیگر از برنامه‌های تفسیر هستی شناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه‌ داده‌ی (تایید آزمایشگاهی شده‌ی) AgBase به عنوان سلسله‌ی قابل دسترس برای ابزار‌های محاسباتیِ تفسیر و تحلیل GO است.<ref> McCarthy FM; et al. (2006). "AgBase: a functional genomics resource for agriculture". BMC Genomics. 7: 229. PMC 1618847 Freely accessible. PMID 16961921. doi:10.1186/1471-2164-7-229.</ref> تفسیر‌های بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes  تصویرسازی از فرآیندهای سوخت‌و‌ساز و شبکه‌های تعاملات سلولی در ترانسکریپتوم را فراهم می‌کند.<ref> "KEGG PATHWAY Database".</ref>
 
اعتبار‌سنجی اندازه‌گیری‌های با حجم بالا
=== تایید و کنترل کیفیت ===
زمانی که ژنوم مرجع موجود نیست، کیفیت contig های همگذار شده باید تایید شود. این تایید یا از طریق مقایسه دنباله‌های تولید شده با read هایی که از آن‌ها ساخته شده است بدون نیاز به مرجع انجام می‌گیرد، یا با هم‌ردیفی دنباله‌های محافظت شده‌ی حوزه‌ی ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونه‌های مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate<ref> Transrate: understand your transcriptome assembly. http://hibberdlab.com/transrate</ref> و DETONATE<ref>Li B; et al. (2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15: 553. doi:10.1186/s13059-014-0553-5.</ref> امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم می‌کنند. یک روش دیگر، طراحی پرایمر‌های PCR ([[واکنش زنجیره‌ای پلیمراز]]) برای ترانسکریپت پیش‌بینی شده است، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولا ، read های کوتاه فیلتر می‌شوند و بیرون داده می‌شوند. دنباله‌های کوتاه (کمتر از 40 آمینواسید) بعید است پروتئین‌های کاربردی را نشان دهند.<ref> Karplus, K. pdb-1: Minimum length of Protein Sequence. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.</ref>
 
هر دو تکنولوژی ریزآرایه‌ی دی‌ان‌ای و واکنش زنجیره‌ای پلیمراز بلادرنگ، از اتصالات بازهایِ دنباله‌ی مکمل نوکلئیک اسید بهره‌برداری می‌کنند، و هر دو در بدست آوردن پروفایل بیان ژن، معمولا در یک روش سریالی استفاده می‌شوند. در حالی که تکنولوژی حجم بالای ریزآرایه‌ی دی‌اِن‌اِی دقت qPCR را ندارد، اندازه‌گیری بیان ژن چندین ژن با استفاده از qPCR و اندازه گیری کل ژنوم با استفاده از ریزآرایه‌ی دی‌ان‌ای تقریبا زمان یکسانی می‌برد. بنابراین منطقی است که ابتدا آزمایش‌های تحلیل ریزآرایه‌ی دی‌ان‌ایِ شبه کمّی‌ای برای شناسایی ژن‌های کاندید انجام شود، سپس qPCR روی تعدادی از ژن‌های جالب بدست آمده در مرحله‌ی قبل انجام شود.
== همگذارها ==
در ادامه، خلاصه‌ای از نرم‌افزار‌ها و ابزار‌هایی که برای تولید ترانسکریپتوم استفاده شده‌اند و هم‌چنین در مقالات علمی به آن‌ها اشاره شده است، آورده شده:
 
تحلیل آماری
=== seqMan NGen ===
seqMan NGen، به عنوان بخشی از نرم‌افزار DNASTAR شامل یک همگذار ترانسکریپتوم از‌سر‌نو برای مجموعه داده‌های بزرگ یا کوچک ترانسکریپتوم می‌باشد. seqMan NGen از یک الگوریتمِ ساخته‌شده استفاده می‌کند که RefSeq را برای شناسایی و ادغام ترانسکریپت‌ها بهینه می‌کند، و به صورت خودکار ترانسکریپت‌های همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژن‌های جدید و شناخته شده، تفسیر می‌کند.
 
تحلیل داده‌های ریزآرایه حوزه‌ایست که تحقیقات بسیاری روی آن انجام می‌شود. 
=== SOAPdenovo-Trans ===
SOAPdenovo-Trans یک همگذار ترانسکریپتوم از‌سر‌نو است که از چارچوب SOAPdenovo2 گرفته شده است و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شده است. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامع‌تر و کامل‌تری برای ساخت کامل ترانسکریپتوم فراهم کرده است.
 
تفسیر ژن
=== Velvet/Oases ===
الگوریتم velvet از گراف دی‌براین برای همگذاری ترانسکریپت استفاده می‌کند. در شبیه‌سازی، Velvet می‌تواند contig هایی با معیار N50 برابر 50-kb را با استفاده از داده‌ی پروکاریوت، و تا N50 برابر 3-kb در کروموزوم‌های مصنوعی باکتریایی پستانداران تولید کند.<ref> Zerbino DR, Birney E (2008). "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs". Genome Res. 18 (5): 821–829. PMC 2336801 Freely accessible. PMID 18349386. doi:10.1101/gr.074492.107.</ref> ترانسکریپت‌های اولیه به [[واحه]] تبدیل می‌شوند، که خود واحه‌ها از read های جفت دو‌طرفه و readهای طولانی برای ساخت ایزوفورم‌های ترانسکریپت استفاده می‌کنند.<ref> "Oases: de novo transcriptome assembler for very short reads".</ref>
 
در حالی که ممکن است آمار شناسایی کند کدام محصول از ژن تحت شرایط آزمایشگاهی تغییر می‌کند، تفسیر و درک ابعاد زیستی بیان ژن بستگی به این دارد که بدانیم هر پروتئین از کدام ژن بدست آمده است و چه عملکردهایی دارد. تفسیر ژن اطلاعات عملکردی و دیگر اطلاعاتی مانند مکان ژن در کروموزوم را فراهم می‌کند. بعضی از تفاسیر عملکردی نسبت به سایر تفاسیر قابل اعتماد‌تر هستند. پایگاه داده‌ی تفسیر ژن به صورت مرتبط تغییر می‌کند و پایگاه داده‌های متفاوت به یک پروتئین یکسان با نام‌های متفاوتی اشاره می‌کنند، و نشان‌دهنده‌ی این است که درک عملکرد پروتئین مدام در حال تغییر است.
=== Trans-ABySS ===
ABySS یک همگذار دنباله‌ی paired end است که موازی کار می‌کند. Trans-ABySS نرم‌افزاری است که به زبان [[پایتون (زبان برنامه‌نویسی)|پایتون]] و [[پرل]] برای تحلیل contig های ترانسکریپتومِ همگذار شده توسط ABySS نوشته شده است. این نرم‌افزار می‌تواند برای همگذاری‌های بازه‌ی بزرگی از مقادیر k اعمال شود. ابتدا مجموعه داده‌ها را به مجموعه‌ی کوچکتری از contigهای غیر هم‌پوشان کاهش می‌دهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزون‌های جدید، اینترون‌های حفظ شده، اینترون‌های جدید و جابجایی جایگزینی را تشخیص می‌دهد. این الگوریتم هم‌چنین می‌تواند سطح بیان ژن‌ها را نیز تخمین بزند، مکان‌های محتمل [[چندآدنینی‌شدن|چندآدنینی شدن]] را شناسایی کند و ژن‌های کاندیدِ ادغام را تشخیص دهد.[https://github.com/trinityrnaseq/trinityrnaseq/wiki <ref> "Trans-ABySS: Analyze ABySS multi-k assembled shotgun transcriptome data".</ref>][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-20|<span class="mw-reflink-text">[20]</span>]]
 
دسته‌بندی ژن‌های تنظیم‌شده
=== Trinity ===
ابزار Trinity ابتدا دنباله‌ی داده‌ها را به تعدادی گراف دی‌براین تبدیل می‌کند، سپس ایزوفورم‌های پیوند شده با طول کامل را استخراج می‌کند و ترانسکریپت‌های استخراج شده از [[هم‌ساخت‌شناسی|ژن‌های parqalogous]] از هر گراف دی‌براین را به صورت جداگانه شناسایی می‌کند. Trinity از سه ماژل نرم‌افزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل می‌کنند، تشکیل شده است:
 
پس از شناسایی مجموعه‌ی ژن‌های تنظیم‌شده، مرحله‌ی بعدی بدست آوردن پروفایل بیان ژن است که در برگیرنده‌ی جستجوی الگویی بین مجموعه‌ی تنظیم شده است. سوالی که مطرح می‌شود این است که آیا پروتئین‌هایی که از این ژن‌ها بدست میاد عملکردهای مشابهی دارند؟ آیا از نظر شیمیایی مشابه هستند؟ آیا در موقعیت مشابهی از سلول قرار دارند؟ تحلیل هستی‌شناسی ژن روش استانداردی برای تعریف این روابط می‌باشد. هستی‌شناسی ژن‌ها با دسته‌بندی بسیار وسیعی شروع می‌شود، برای مثال "فرآیند سوخت‌و‌ساز" و آن‌ها را به دسته‌های کوچک‌تر تقسیم می‌کند.
'''Inchworm''' ابتدا داده‌های RNA-seq را به دنباله‌های ترانسکریپت همگذار می‌کند، و معمولا برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید می‌کند، اما نهایتا فقط بخش‌های یکتایی از ترانسکریپت پیوند زده شده‌ی جایگزین را گزارش می‌دهد.
 
ژن‌ها در کنار عملکرد زیستی، ویژگی‌های شیمیایی، و موقعیت سلولی، ویژگی‌های دیگری هم دارند. می‌توان مجموعه‌ای از ژن‌ها را بر‌حسب میزان نزدیکیشان به ژن‌های دیگر با هم ترکیب کرد و ارتباطشان با یک بیماری، دارو‌ها یا سم‌ها را بدست آورد.
'''Chrysalis''' در مرحله‌ی بعد، contig های Inchowrm را خوشه‌بندی می‌کند و برای هر خوشه گراف دی‌براین را به صورت کامل می‌سازد. هر خوشه نمایش‌دهنده‌ی پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعه‌ای از ژن‌ها که دارای بخش محافظت‌شده‌ی مشترکی هستند). Chrysalis سپس مجموعه‌ی کامل read ها را بین این گراف‌های مجزا بخش‌بندی می‌کند.
 
یافتن الگویی بین ژن‌های تنظیم‌شده
'''Butterfly''' سپس هر گراف را به صورت موازی پردازش می‌کند و مسیر read ها را در گراف دنبال می‌کند و نهایتا ترانسکریپت کامل را برای ایزوفورم‌های پیوند زده شده‌ی جایگزین گزارش می‌کند.<ref> "Trinity RNA-Seq Assembly – software for the reconstruction of full-length transcripts and alternatively spliced isoforms". Archived from the original on July 12, 2011.</ref>
 
ژن‌های تنظیمی با توجه به‌اینکه چه کاری انجام می‌دهند و چه هستند دسته‌بندی می‌شوند، و ممکن است ارتباطات مهمی بین ژن‌ها بروز داده شود. برای نمونه، ممکن است شواهدی صورت گیرد که یک ژن خاص، پروتئینی می‌سازد که آن یک آنزیم را ایجاد می‌کند و آنزیم، پروتئین دیگری را فعال می‌کند که باعث می‌شود ژن دوم دیگری در لیست روشن شود. این ژن دوم ذکر شده ممکن است یک عامل‌رونویسی باشد که ژن دیگری از لیست ما را تنظیم می‌کند. مشاهده‌ی این ارتباطات، ما را مشکوک می‌کند که این لیست، ارتباطاتی فراتر از شانس با یکدیگر دارند و همه‌ی آن‌ها به خاطر یک فرایند زیستی پایه در لیست ما قرار دارند. از طرفی اگر چند ژن به صورت رندم انتخاب کنیم، می‌توان تعدادی ژن مرتبط با آن‌ها پیدا کرد. در این موارد، به پردازش‌های آماری دقیقی نیاز داریم تا مشخص شود آیا نتیجه‌ی زیستی بدست آمده معنادار هست یا نه. در این مواقع تحلیل مجموعه‌ی ژن‌ها مورد نیاز است.
== منابع ==
 
رابطه‌ی علل و معلول
 
ابتدائا آمار ساده مشخص می‌کند آیا ارتباط بین ژن‌های درون لیست بیشتر از مقداری است که ممکن است شانسی باشد. این آمار حتی در صورتی که بیش از حد ساده‌سازی شده باشد، می‌تواند جالب باشد. یک مثال را بررسی می‌کنیم،  فرض کنیم در یک آزمایش 10000 ژن داریم، فقط 50 درصد آن‌ها نقشی در ساختن کلروسترول بازی میکنند. آزمایش 200 ژن تنظیمی را تشخیص می‌دهد. در بین این 200 ژن 40 عدد در بین لیست ژن‌های تاثیر گذار در کلرسترول هستند. با توجه به رواج ژن‌های کلسترول در کل (0.5%)، انتظار می‌رود به ازای هر 200 ژن، یکی از آن‌ها جزو ژن‌های تاثیرگذار در کلرسترول باشد، که برابر است با 0.005 برابر 200. این پیش‌بینی مورد انتظار است و ممکن است کسی بیشتر از یک ژن مشاهده کند. سوال این است که چه زمانی ما می‌توانیم به صورت شانسی به جای 1 ژن 40 ژن مشاهده کنیم.
 
با توجه به توزیع فوق هندسی، انتظار می‌رود باید حدود 10^57 بار لیست 200 تایی ژن به صورت تصادفی انتخاب شود تا بتوان یک لیست شامل 39 یا بیشتر ژن مشترک با لیست تاثیرگذار در کلرسترول در آن پیدا کرد. چنان‌چه ممکن است از جنبه‌ای، مشاهده‌ی تصادفی این مورد بسیار کوچک به نظر آید، ممکن است کسی نتیجه بگیرد که لیست ژن‌های تنظیمی، بسیار غنی از ژن‌های مربوط به کلرسترول هستند.
 
ممکن است فرض شود اِعمال شرایط خاص در آزمایش، باعث تنظیم کلرسترول شده است، زیرا نحوه‌ی درمان به نظر گونه‌ایست که ژن‌های مربوط به کلرسترول را تنظیم می‌کند. در حالی که ممکن است این فرضیه درست به نظر برسد، دلایلی وجود دارد که نتیجه‌گیری بر اساس غنی بودن به تنهایی، نتیجه‌ی غیر‌قابل‌توجیهی را می‌دهد.
 
نتیجه‌گیری
 
بدست‌آوردن پروفایل بیان ژن، اطلاعات جدیدی در مورد این‌که ژن‌ها در شرایط متفاوت چه کارهایی می‌کنند به ما می‌دهد. به‌طور کلی، تکنولوژی ریزآرایه، پروفایل بیان ژن قابل اطمینانی فراهم می‌کند. با استفاده از این اطلاعات می‌توان فرضیه‌های جدیدی در مورد واقعیات زیستی یا آزمایشی بدست آورد. اگرچه سایز و پیچیدگی این آزمایشات معمولا منجر به انواع متنوعی از تفاسیر می‌تواند بشود. در بسیاری از موارد، نتیجه‌ی تحلیل پروفایل بیان ژن بسیار زیاد بیشتر از خود آزمایش اولیه زمان می‌برد.
 
بسیاری از محققین روش‌های مختلف آماری و تحلیل داده‌ی اکتشافی را قبل از انتشار نتایج پروفایل بیان ژن، استفاده می‌کنند، و تلاش‌هایشان را بایوانفورماتیست ها یا دیگر متخصصان در ریزآرایه‌ی دی‌ان‌ای هماهنگ می‌کنند. یک طراحی آزمایش خوب، تکرار کافی زیستی و پیگیری آزمایش، نقش‌های مهمی در موفقیت آزمایش‌های پروفایل بیان ژن دارند.