در حوزهی زیست مولکولی، اندازهگیری پروفایل بیان ژن معیاری از فعالیت هزاران [[ژن]] به صورت یکجا، برای ایجاد یک تصویر عمومی از کارکرد [[یاخته|سلول]] است. این پروفایل میتواند برای مثال بین سلولهای فعال جدا از هم تمایز ایجاد کند، یا مشخص کند یک سلول چگونه به یک درمان واکنش نشان میدهد. بسیاری از آزمایشهای در این سطح، کل [[ژنوم]] را به صورت همزمان، برای هر ژن، در یک سلول خاص اندازهگیری میکنند.
'''همگذار ازسرنو ترانسکریپتوم'''، یک روش همگذاری دنبالهی de novo یا ازسرنو، برای ساخت رشتهی [[ترنسکریپتومیکس|ترانسکریپتومیکس]] بدون کمک گرفتن از [[ژنوم]] مرجع است.
تعداد زیادی تکنولوژی [[ترنسکریپتومیکس|ترانسکریپتوم]] برای تولید دادهی مورد نیاز برای آنالیز میتواند مورد استفاده واقع شود. [[ریزآرایه دیانای|ریزآرایهی دیاِناِی]] فعالیت نسبی یکسری ژن هدف را اندازه میگیرد. تکنولوژیهای مبتنی بر دنباله، مانند [[توالییابی آرانای]] علاوه بر سطح بیان ژنها، اطلاعاتی از دنبالهی آنها را نیز فراهم میکنند.
به دنبال توسعهی تکنولوژیهای جدید برای توالییابی، در سالهای 2008 تا 2012 کاهش شدیدی در هزینهی توالییابی اتفاق افتاد. هزینهی تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به 1/100,000 و 1/10,000 هزینهی قبلی، کاهش پیدا کرد.<ref> Wetterstrand KA. "DNA Sequencing Costs: Data from the NHGRI Large-Scale Genome Sequencing Program Available at: www.genome.gov/sequencingcosts". Genome.gov.</ref> مهمتر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزهی تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آنها فراهم تر بود توالییابی میشدند. با اینحال، این تکنولوژیهای تازه توسعه یافتهی نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینهتر هستند و تعداد موجوداتی که از این روشها مطالعه میشوند در حال گسترش است.<ref> Surget-Groba Y, Montoya-Burgos JI (2010). "Optimization of de novo transcriptome assembly from next-generation sequencing data". Genome Res. 20 (10): 1432–1440. PMC 2945192 Freely accessible. PMID 20693479. doi:10.1101/gr.103846.109.</ref> برای نمونه ترانسکریپتوم موجوداتی مانند [[نخود]]<ref>Garg R, Patel RK, Tyagi AK, Jain M (2011). "De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification". DNA Res. 18 (1): 53–63. PMC 3041503 Freely accessible. PMID 21217129. doi:10.1093/dnares/dsq028.</ref>، [[پلاناریا]] (Planarian)<ref> Adamidi C; et al. (2011). "De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics". Genome Res. 21 (7): 1193–1200. PMC 3129261 Freely accessible. PMID 21536722. doi:10.1101/gr.113779.110.</ref> و [[پارائیالا هاواییس]]<ref> Zeng V; et al. (2011). "De novo assembly and characterization of a maternal and developmental transcriptome for the emerging model crustacean Parhyale hawaiensis" (PDF). BMC Genomics. 12: 581. PMC 3282834 Freely accessible. PMID 22118449. doi:10.1186/1471-2164-12-581</ref> و همینطور دنبالهی مغز موجوداتی شامل [[تمساح نیل]]، [[مار ذرت]] و [[لاکپشت گوشقرمز]] ساخته شده است.<ref> Tzika AC; et al. (2011). "Reptilian transcriptome v1.0, a glimpse in the brain transcriptome of five divergent Sauropsida lineages and the phylogenetic position of turtles" (PDF). EvoDevo. 2 (1): 19. PMC 3192992 Freely accessible. PMID 21943375. doi:10.1186/2041-9139-2-19.</ref>
بررسی موجودات غیر مدل میتواند دید جدیدی از مکانیزمهای زیربنای "تنوع نوآوریهای شگفتانگیز مورفولوژیکی" که فراوانی زندگی روی سیارهی زمین را ممکن ساخته، فراهم کند. "نوآوری"هایی که در حیوانات و گیاهان وجود دارد و نمیتوان آنها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، [[همزیستی دوسویه]]، [[پاراتیزیسم]] و [[تولید مثل غیرجنسی|تولید مثل غیرجنسی]] میباشد.<ref>Rowan BA, Weigel D, Koenig D (2011). "Developmental genetics and new sequencing technologies: the rise of nonmodel organisms". Developmental Cell. 21 (1): 65–76. PMID 21763609. doi:10.1016/j.devcel.2011.05.021.</ref> همگذاری ازسرنو ترانسکریپتوم معمولا روشی است که در مطالعهی موجودات غیر مدل ترجیح داده میشود، زیرا این روش کمهزینهتر و آسانتر از ساخت ژنوم است و متدهای مبتنی بر مرجع بدون وجود ژنوم امکانپذیر نیستند. ترانسکریپتوم این موجودات میتواند پروتئینهای جدید و ایزوفورمهای آنها را که در اینچنین آثار یکتای زیستی وجود دارند آشکار سازد.
بدست آوردن بیان ژن، مرحلهی منطقی پس از توالییابی ژنوم است: دنبالهی ژنوم به ما این اطلاعات را میدهد که سلول چه فعالیتهایی انجام میدهد، در حالی که پروفایل بیان ژن مشخص میکند دقیقا در آن لحظه چه کارهایی انجام میشود. ژنها شامل دستورهایی هستند که [[آرانای پیامرسان|آراِناِیهای پیامرسان]] (mRNA) را میسازند، اما در هر لحظه هر سلول فقط بخشی از ژنهایی که دارد را به mRNA تبدیل میکند. چنانچه ژنی، در حال تولید mRNA باشد، آن ژن "روشن" و در غیر این صورت "خاموش" در نظر گرفته میشود. معیارهای زیادی مشخص میکنند که یک ژن روشن یا خاموش باشد، از جملهی آنها میتوان به زمان، محیطی که در آن قرار دارد و سیگنالهای شیمیایی که از سلولهای دیگر دریافت میکند اشاره کرد.
=== همگذاری ازسرنو در مقایسه با روش مبتنی بر مرجع ===
مجموعهای از ترانسکریپتهای همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و میکنند. پیش از توسعهی برنامههای کامپیوتریِ همگذاری ترانسکریپتوم، دادههای ترانسکریپتوم ابتدائا با نگاشت روی ژنوم مرجع تحلیل میشدند. اگرچه همردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت میباشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپهای mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینهای ندارد.<ref name=":0">Birol I; et al. (2009). "De novo transcriptome assembly with ABySS". Bioinformatics. 25: 2872–7. PMID 19528083. doi:10.1093/bioinformatics/btp367.</ref> ژنوم شامل همه ی [[اینترون|اینترون]]<nowiki/>ها و [[اگزون|اگزون]]<nowiki/>هایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزون ها را (نه لزوما تمام آنها را) دقیقا به ترتیب آمدنشان در ژنوم، کنار هم قرار میدهد که این میتواند به نوعی ایزوفورمهای مختلف [[پروتئین]] را بسازند و همین تنوع در آمدن اگزومهاست که باعث این تنوع و تفاوت میشود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری ازسرنو باید انجام گیرد، این کار ترانسکریپتهایی را که از بخشهایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کرده است را پوشش میدهد.<ref name=":1">Martin, Jeffrey A.; Wang, Zhong. "Next-generation transcriptome assembly". Nature Reviews Genetics. 12 (10): 671–682. doi:10.1038/nrg3068.</ref>
بررسی پروفایل بیان ژن معمولا اندازهی نسبی بیان mRNA ها را در دو یا چند شرایط آزمایشگاهی بدست میآورد. به این دلیل که تغییرات سطح بیان یک دنبالهی مشخص از mRNA، تغییراتی در پروتئین حاصل از آن ژن را نشان میدهد که میتوان نمایندهی یک شرایط آسیبدیده یا پاسخ همایستایی باشد. برای مثال سطح بیان بالای mRNA ای که الکل dehydrogenase را کد میکند نشان دهندهی این است که سلولها یا بافت مورد بررسی، در حال پاسخگویی به افزایش سطح اتانول در محیط است.
=== همگذاری ترانسکریپتوم در مقایسه با ژنوم ===
برخلاف سطح پوشش دنبالهی ژنوم- که در نتیجهی محتوای تکراری در نواحی غیر کدینگ اینترون دیانای، میتواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیما نشاندهندهی سطح بیان ژنهاست. این توالیهای تکرار شده همچنین میتوانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرآیند همگذاری ترانسکریپتوم، معمولا به ایزوفورمهای تقسیم شده یا تنوع جزئی مربوط به اعضای خانوادهای از ژنها ارتباط دارد.<ref name=":0" /> همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمیتواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولا به اندازه سراسر طول ژنوم میباشد، اما عمق ترانسکریپتوم میتواند متنوع باشد. دوم اینکه هر دو رشتهی دیانای همیشه در ژنوم [[توالییابی]] میشوند، اما دادهی RNA-seq میتواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، میتواند با استفاده از اگزونهای مختلف و ترکیب آنها ایجاد شده باشد و حل این ابهام و چندگانگی سختتر است.<ref name=":1" />
مقایسه با پروتئومیک
== انواع روشها ==
ژنوم انسان شامل حدود 5000 ژن میباشد که در حدود 1،000،000 پروتئین متفاوت را تولید میکنند. این بهخاطر پیرایش جایگزین است و همینطور به خاطر اینکه سلولها تغییراتی را پس از اینکه بار اول پروتئین را ایجاد کردند، در پروسهی [[پیرایش پسارونویسی]] ایجاد میکنند، و در نتیجه، هر ژن میتواند پایهای برای تولید نسخههای متفاوت [[پروتئین]] باشد. با یک آزمایش mass spectrometry میتوان حدود 2000 پروتئین یا 0.2% از کل پروتئینها را شناسایی کرد. اطلاعاتی که از خود پروتئینها(پروتئومیک) بدست میآید از اطلاعاتی که از RNA های پیامرسان استخراج میشود دقیقتر است.
=== Rna-seq ===
پس از اینکه [[آرانای|آرانای]] از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزارهای توالییابی با توان عملکردی بالا داده میشود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت [[آنزیم رونوشت بردار معکوس|معکوس رونویسی]] میشود تا cDNA یا [[دیانای مکمل]] ساخته شود. سپس این cDNA بر حسب پلتفرمی که استفاده میشود میتواند به طولهای منتوعی تقسیمبندی شود. هر کدام از پلتفرمهایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیونها read کوتاه را بکار میگیرد: 454 Sequencing, [[ایلومینا|Illumina]] و SOLiD.
کاربرد در تولید و آزمون فرضیه
=== الگوریتمهای همگذاری ===
Read های توالی cDNA ها بوسیلهی برنامههای همگذاری ترانسکریپت، به ترانسکریپت همگذار میشوند. به احتمال زیاد تنوع بعضی از [[آمینواسید|آمینواسید]]<nowiki/>ها بین ترانسکریپتها، که به طریق دیگری مشابه هستند، [[ایزوفورون|ایزوفورم]]<nowiki/>های متفاوت پروتئینها را ایجاد میکنند. همچنین ممکن است ژنهای متفاوت در یک خانوادهی مشابه را نشان دهند، یا میتواند ژنهایی باشند که فقط بخش حفاظت شدهای از ترانسکریپت را به اشتراک دارند و این بستگی به درجهی تنوع آنها دارد.
در بعضی مواقع، یک دانشمند فرضیهای در ذهن دارد و در مورد اتفاقاتی که ممکن است بیفتد ایدههایی دارد، و با انجام آزمایشهای پروفایل بیان ژن سعی دارد این فرضیه را رد کند. در حقیقت دانشمند پیشبینیای در مورد سطح بیان سلولی میکند که ممکن است اشتباه باشد.
تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامهها در همگذاری ژنوم موفق عملکردهاند، همگذاری ترانسکریپتوم چالشهای منحصربفرد خودش را دارد. درحالیکه پوشش بالای توالی برای ژنوم، میتواند نشان دهندهی وجود توالیهای تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، میتواند نشان دهندهی فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم میتواند یک رشتهای باشد. نهایتا بازسازی ایزوفورمهای تقسیم شده میتواند سخت باشد.<ref name=":1" />
معمولا پروفایل بیان ژن زمانی بدست آورده میشود که اطلاعات کاملی در مورد تعامل ژنها با شرایط آزمایشگاهی در مورد یک فرضیهی در حین آزمون نداریم. بدون هیچ فرضیهای، چیزی برای انکار کردن یا اثبات کردن وجود ندارد، اما پروفایل بیان میتواند برای شناسایی فرضهای کاندید برای آزمایشهای آینده کمککننده باشد. بسیاری از آزمایشهای پروفایل بیان ژن ابتدایی و امروزی، به صورت "اکتشاف کلاس" شناسایی میشوند که به فرمی است که در ادامه توضیح داده میشود. روش معروف برای اکتشاف کلاس شامل گروهبندی کردن ژنها یا نمونههای مشابه با استفاده از خوشه بندی کی_میانگین یا سلسلهمراتبی میباشد. مستقل از روش خوشهبندیای که مورد استفاده قرار میگیرد، نیاز است کاربر معیار فاصلهی مناسبی (فاصله یا شباهت) بین دادهها برگزیند. تصویر بالا خروجی خوشهی دوبعدی را نشان میدهد، به طوریکه نمونههای مشابه (سطرها) و پروب ژنهای مشابه (ستون) به گونهای مرتب شدهاند که نزدیک هم قرار دارند. سادهترین شکل اکتشاف کلاس، لیست کردن همهی ژنهایی است که بین دو شرایط آزمایشگاهی بیشتر از یک حدی تغییر کردهاند.
همگذارهای read های کوتاه، معمولا یکی از این دوالگوریتم پایهای را انتخاب میکنند: گراف همپوشانی و گراف دی براین. گراف همپوشانی برای بیشتر همگذاریهایی بکار گرفته میشود که برای توالییابی با [[توالییابی به روش سنگر|تکنولوژی Sanger]] طراحی شدهاند. همپوشانی بین هر جفت از readها محاسبه میشود و به یک گراف، ترجمه و تبدیل میشود که در آن هر گره نشاندهندهی دنبالهی یک read است. این الگوریتم از نظر محاسباتی سنگین تر از [[گراف دی براین|گراف دیبراین]] است، همچنین در همگذاریِ تعداد کمتری از read های با درجهی بالاتری از همپوشانی، موثرتر عمل میکند. گراف دی براین، k تاییهای متوالی موجود در هر read را (معمولا بین 25 تا 50 باز) بر اساس دنبالهی k-1 تایی محافظت شده، همگذاری میکند تا contig ها را بسازد. استفاده از k-تاییهایی که طول کوتاهتری از خود read ها دارند- در گراف دیبراین، باعث کاهش شدت محاسباتی این روش میشود.<ref> Illumina, Inc. (2010). "De Novo Assembly Using Illumina Reads" (PDF).</ref>
پیشبینی کلاس از اکتشاف کلاس بسیار سختتر است، اما این امکان را به افراد میدهد که به سوالات مهمی که مستقیما بالینی هستند پاسخ دهد. برای نمونه با دادن این پروفایل امکان اینکه بیمار به یک داروی خاص پاسخ دهد چقدر است؟ پاسخ به این سوال نیاز به تعداد زیادی نمونه از پروفایل دارد که به دارو پاسخ دادهاند و تعدادی که پاسخ ندادهاند.
=== تفسیر کاربردی ===
تفسیر کاربردی ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفههای سلولی و فرآیندهای زیستیای که احتمالا پروتئینهایی در آن ها درگیر هستند، میدهد. Blast2GO ، هستیشناسی ژنی را (Gene Ontology که به صورت GO مخفف میشود) برای ژنهایی که در حال حاضر هیچ تفسیر هستی شناسی برایشان در دسترس نداریم، براساس کاوش داده برای تفسیر دنبالهی دادهها میسر میکند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونههای غیر مدل اعمال میشود.<ref> Conesa A; et al. (2005). "Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research". Bioinformatics. 21 (18): 3674–3676. PMID 16081474. doi:10.1093/bioinformatics/bti610.</ref> نحوهی کارکردش به این صورت است که contig های همگذار شده را بین پایگاه دادههای پروتئینهای غیر مدل (در NCBI) [[بلاست]] میکند، سپس بر اساس تشابه دنبالهای، آنها را تفسیر میکند. Goanna یکی دیگر از برنامههای تفسیر هستی شناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه دادهی (تایید آزمایشگاهی شدهی) AgBase به عنوان سلسلهی قابل دسترس برای ابزارهای محاسباتیِ تفسیر و تحلیل GO است.<ref> McCarthy FM; et al. (2006). "AgBase: a functional genomics resource for agriculture". BMC Genomics. 7: 229. PMC 1618847 Freely accessible. PMID 16961921. doi:10.1186/1471-2164-7-229.</ref> تفسیرهای بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes تصویرسازی از فرآیندهای سوختوساز و شبکههای تعاملات سلولی در ترانسکریپتوم را فراهم میکند.<ref> "KEGG PATHWAY Database".</ref>
اعتبارسنجی اندازهگیریهای با حجم بالا
=== تایید و کنترل کیفیت ===
زمانی که ژنوم مرجع موجود نیست، کیفیت contig های همگذار شده باید تایید شود. این تایید یا از طریق مقایسه دنبالههای تولید شده با read هایی که از آنها ساخته شده است بدون نیاز به مرجع انجام میگیرد، یا با همردیفی دنبالههای محافظت شدهی حوزهی ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونههای مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate<ref> Transrate: understand your transcriptome assembly. http://hibberdlab.com/transrate</ref> و DETONATE<ref>Li B; et al. (2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15: 553. doi:10.1186/s13059-014-0553-5.</ref> امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم میکنند. یک روش دیگر، طراحی پرایمرهای PCR ([[واکنش زنجیرهای پلیمراز]]) برای ترانسکریپت پیشبینی شده است، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولا ، read های کوتاه فیلتر میشوند و بیرون داده میشوند. دنبالههای کوتاه (کمتر از 40 آمینواسید) بعید است پروتئینهای کاربردی را نشان دهند.<ref> Karplus, K. pdb-1: Minimum length of Protein Sequence. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.</ref>
هر دو تکنولوژی ریزآرایهی دیانای و واکنش زنجیرهای پلیمراز بلادرنگ، از اتصالات بازهایِ دنبالهی مکمل نوکلئیک اسید بهرهبرداری میکنند، و هر دو در بدست آوردن پروفایل بیان ژن، معمولا در یک روش سریالی استفاده میشوند. در حالی که تکنولوژی حجم بالای ریزآرایهی دیاِناِی دقت qPCR را ندارد، اندازهگیری بیان ژن چندین ژن با استفاده از qPCR و اندازه گیری کل ژنوم با استفاده از ریزآرایهی دیانای تقریبا زمان یکسانی میبرد. بنابراین منطقی است که ابتدا آزمایشهای تحلیل ریزآرایهی دیانایِ شبه کمّیای برای شناسایی ژنهای کاندید انجام شود، سپس qPCR روی تعدادی از ژنهای جالب بدست آمده در مرحلهی قبل انجام شود.
== همگذارها ==
در ادامه، خلاصهای از نرمافزارها و ابزارهایی که برای تولید ترانسکریپتوم استفاده شدهاند و همچنین در مقالات علمی به آنها اشاره شده است، آورده شده:
تحلیل آماری
=== seqMan NGen ===
seqMan NGen، به عنوان بخشی از نرمافزار DNASTAR شامل یک همگذار ترانسکریپتوم ازسرنو برای مجموعه دادههای بزرگ یا کوچک ترانسکریپتوم میباشد. seqMan NGen از یک الگوریتمِ ساختهشده استفاده میکند که RefSeq را برای شناسایی و ادغام ترانسکریپتها بهینه میکند، و به صورت خودکار ترانسکریپتهای همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژنهای جدید و شناخته شده، تفسیر میکند.
تحلیل دادههای ریزآرایه حوزهایست که تحقیقات بسیاری روی آن انجام میشود.
=== SOAPdenovo-Trans ===
SOAPdenovo-Trans یک همگذار ترانسکریپتوم ازسرنو است که از چارچوب SOAPdenovo2 گرفته شده است و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شده است. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامعتر و کاملتری برای ساخت کامل ترانسکریپتوم فراهم کرده است.
تفسیر ژن
=== Velvet/Oases ===
الگوریتم velvet از گراف دیبراین برای همگذاری ترانسکریپت استفاده میکند. در شبیهسازی، Velvet میتواند contig هایی با معیار N50 برابر 50-kb را با استفاده از دادهی پروکاریوت، و تا N50 برابر 3-kb در کروموزومهای مصنوعی باکتریایی پستانداران تولید کند.<ref> Zerbino DR, Birney E (2008). "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs". Genome Res. 18 (5): 821–829. PMC 2336801 Freely accessible. PMID 18349386. doi:10.1101/gr.074492.107.</ref> ترانسکریپتهای اولیه به [[واحه]] تبدیل میشوند، که خود واحهها از read های جفت دوطرفه و readهای طولانی برای ساخت ایزوفورمهای ترانسکریپت استفاده میکنند.<ref> "Oases: de novo transcriptome assembler for very short reads".</ref>
در حالی که ممکن است آمار شناسایی کند کدام محصول از ژن تحت شرایط آزمایشگاهی تغییر میکند، تفسیر و درک ابعاد زیستی بیان ژن بستگی به این دارد که بدانیم هر پروتئین از کدام ژن بدست آمده است و چه عملکردهایی دارد. تفسیر ژن اطلاعات عملکردی و دیگر اطلاعاتی مانند مکان ژن در کروموزوم را فراهم میکند. بعضی از تفاسیر عملکردی نسبت به سایر تفاسیر قابل اعتمادتر هستند. پایگاه دادهی تفسیر ژن به صورت مرتبط تغییر میکند و پایگاه دادههای متفاوت به یک پروتئین یکسان با نامهای متفاوتی اشاره میکنند، و نشاندهندهی این است که درک عملکرد پروتئین مدام در حال تغییر است.
=== Trans-ABySS ===
ABySS یک همگذار دنبالهی paired end است که موازی کار میکند. Trans-ABySS نرمافزاری است که به زبان [[پایتون (زبان برنامهنویسی)|پایتون]] و [[پرل]] برای تحلیل contig های ترانسکریپتومِ همگذار شده توسط ABySS نوشته شده است. این نرمافزار میتواند برای همگذاریهای بازهی بزرگی از مقادیر k اعمال شود. ابتدا مجموعه دادهها را به مجموعهی کوچکتری از contigهای غیر همپوشان کاهش میدهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزونهای جدید، اینترونهای حفظ شده، اینترونهای جدید و جابجایی جایگزینی را تشخیص میدهد. این الگوریتم همچنین میتواند سطح بیان ژنها را نیز تخمین بزند، مکانهای محتمل [[چندآدنینیشدن|چندآدنینی شدن]] را شناسایی کند و ژنهای کاندیدِ ادغام را تشخیص دهد.[https://github.com/trinityrnaseq/trinityrnaseq/wiki <ref> "Trans-ABySS: Analyze ABySS multi-k assembled shotgun transcriptome data".</ref>][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-19|<span class="mw-reflink-text">[19]</span>]][[کاربر:Z.navidi/صفحه تمرین#cite note-20|<span class="mw-reflink-text">[20]</span>]]
دستهبندی ژنهای تنظیمشده
=== Trinity ===
ابزار Trinity ابتدا دنبالهی دادهها را به تعدادی گراف دیبراین تبدیل میکند، سپس ایزوفورمهای پیوند شده با طول کامل را استخراج میکند و ترانسکریپتهای استخراج شده از [[همساختشناسی|ژنهای parqalogous]] از هر گراف دیبراین را به صورت جداگانه شناسایی میکند. Trinity از سه ماژل نرمافزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل میکنند، تشکیل شده است:
پس از شناسایی مجموعهی ژنهای تنظیمشده، مرحلهی بعدی بدست آوردن پروفایل بیان ژن است که در برگیرندهی جستجوی الگویی بین مجموعهی تنظیم شده است. سوالی که مطرح میشود این است که آیا پروتئینهایی که از این ژنها بدست میاد عملکردهای مشابهی دارند؟ آیا از نظر شیمیایی مشابه هستند؟ آیا در موقعیت مشابهی از سلول قرار دارند؟ تحلیل هستیشناسی ژن روش استانداردی برای تعریف این روابط میباشد. هستیشناسی ژنها با دستهبندی بسیار وسیعی شروع میشود، برای مثال "فرآیند سوختوساز" و آنها را به دستههای کوچکتر تقسیم میکند.
'''Inchworm''' ابتدا دادههای RNA-seq را به دنبالههای ترانسکریپت همگذار میکند، و معمولا برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید میکند، اما نهایتا فقط بخشهای یکتایی از ترانسکریپت پیوند زده شدهی جایگزین را گزارش میدهد.
ژنها در کنار عملکرد زیستی، ویژگیهای شیمیایی، و موقعیت سلولی، ویژگیهای دیگری هم دارند. میتوان مجموعهای از ژنها را برحسب میزان نزدیکیشان به ژنهای دیگر با هم ترکیب کرد و ارتباطشان با یک بیماری، داروها یا سمها را بدست آورد.
'''Chrysalis''' در مرحلهی بعد، contig های Inchowrm را خوشهبندی میکند و برای هر خوشه گراف دیبراین را به صورت کامل میسازد. هر خوشه نمایشدهندهی پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعهای از ژنها که دارای بخش محافظتشدهی مشترکی هستند). Chrysalis سپس مجموعهی کامل read ها را بین این گرافهای مجزا بخشبندی میکند.
یافتن الگویی بین ژنهای تنظیمشده
'''Butterfly''' سپس هر گراف را به صورت موازی پردازش میکند و مسیر read ها را در گراف دنبال میکند و نهایتا ترانسکریپت کامل را برای ایزوفورمهای پیوند زده شدهی جایگزین گزارش میکند.<ref> "Trinity RNA-Seq Assembly – software for the reconstruction of full-length transcripts and alternatively spliced isoforms". Archived from the original on July 12, 2011.</ref>
ژنهای تنظیمی با توجه بهاینکه چه کاری انجام میدهند و چه هستند دستهبندی میشوند، و ممکن است ارتباطات مهمی بین ژنها بروز داده شود. برای نمونه، ممکن است شواهدی صورت گیرد که یک ژن خاص، پروتئینی میسازد که آن یک آنزیم را ایجاد میکند و آنزیم، پروتئین دیگری را فعال میکند که باعث میشود ژن دوم دیگری در لیست روشن شود. این ژن دوم ذکر شده ممکن است یک عاملرونویسی باشد که ژن دیگری از لیست ما را تنظیم میکند. مشاهدهی این ارتباطات، ما را مشکوک میکند که این لیست، ارتباطاتی فراتر از شانس با یکدیگر دارند و همهی آنها به خاطر یک فرایند زیستی پایه در لیست ما قرار دارند. از طرفی اگر چند ژن به صورت رندم انتخاب کنیم، میتوان تعدادی ژن مرتبط با آنها پیدا کرد. در این موارد، به پردازشهای آماری دقیقی نیاز داریم تا مشخص شود آیا نتیجهی زیستی بدست آمده معنادار هست یا نه. در این مواقع تحلیل مجموعهی ژنها مورد نیاز است.
== منابع ==
رابطهی علل و معلول
ابتدائا آمار ساده مشخص میکند آیا ارتباط بین ژنهای درون لیست بیشتر از مقداری است که ممکن است شانسی باشد. این آمار حتی در صورتی که بیش از حد سادهسازی شده باشد، میتواند جالب باشد. یک مثال را بررسی میکنیم، فرض کنیم در یک آزمایش 10000 ژن داریم، فقط 50 درصد آنها نقشی در ساختن کلروسترول بازی میکنند. آزمایش 200 ژن تنظیمی را تشخیص میدهد. در بین این 200 ژن 40 عدد در بین لیست ژنهای تاثیر گذار در کلرسترول هستند. با توجه به رواج ژنهای کلسترول در کل (0.5%)، انتظار میرود به ازای هر 200 ژن، یکی از آنها جزو ژنهای تاثیرگذار در کلرسترول باشد، که برابر است با 0.005 برابر 200. این پیشبینی مورد انتظار است و ممکن است کسی بیشتر از یک ژن مشاهده کند. سوال این است که چه زمانی ما میتوانیم به صورت شانسی به جای 1 ژن 40 ژن مشاهده کنیم.
با توجه به توزیع فوق هندسی، انتظار میرود باید حدود 10^57 بار لیست 200 تایی ژن به صورت تصادفی انتخاب شود تا بتوان یک لیست شامل 39 یا بیشتر ژن مشترک با لیست تاثیرگذار در کلرسترول در آن پیدا کرد. چنانچه ممکن است از جنبهای، مشاهدهی تصادفی این مورد بسیار کوچک به نظر آید، ممکن است کسی نتیجه بگیرد که لیست ژنهای تنظیمی، بسیار غنی از ژنهای مربوط به کلرسترول هستند.
ممکن است فرض شود اِعمال شرایط خاص در آزمایش، باعث تنظیم کلرسترول شده است، زیرا نحوهی درمان به نظر گونهایست که ژنهای مربوط به کلرسترول را تنظیم میکند. در حالی که ممکن است این فرضیه درست به نظر برسد، دلایلی وجود دارد که نتیجهگیری بر اساس غنی بودن به تنهایی، نتیجهی غیرقابلتوجیهی را میدهد.
نتیجهگیری
بدستآوردن پروفایل بیان ژن، اطلاعات جدیدی در مورد اینکه ژنها در شرایط متفاوت چه کارهایی میکنند به ما میدهد. بهطور کلی، تکنولوژی ریزآرایه، پروفایل بیان ژن قابل اطمینانی فراهم میکند. با استفاده از این اطلاعات میتوان فرضیههای جدیدی در مورد واقعیات زیستی یا آزمایشی بدست آورد. اگرچه سایز و پیچیدگی این آزمایشات معمولا منجر به انواع متنوعی از تفاسیر میتواند بشود. در بسیاری از موارد، نتیجهی تحلیل پروفایل بیان ژن بسیار زیاد بیشتر از خود آزمایش اولیه زمان میبرد.
بسیاری از محققین روشهای مختلف آماری و تحلیل دادهی اکتشافی را قبل از انتشار نتایج پروفایل بیان ژن، استفاده میکنند، و تلاشهایشان را بایوانفورماتیست ها یا دیگر متخصصان در ریزآرایهی دیانای هماهنگ میکنند. یک طراحی آزمایش خوب، تکرار کافی زیستی و پیگیری آزمایش، نقشهای مهمی در موفقیت آزمایشهای پروفایل بیان ژن دارند.
|