اینترپرو (به انگلیسی: InterPro) پایگاه داده‌ای است که تجزیه و تحلیل دنباله‌های پروتئین‌ها را با طبقه‌بندی آنها در گروه‌های متفاوت و پیش‌بینی حضور دامنه‌ها و سایت‌های مهم ارائه می‌دهد. برای گروه‌بندی‌ها، اینترپرو از مدل‌های پیش‌بینی کننده (امضا) که توسط پایگاه داده‌های دیگر ارائه شده‌است، استفاده می‌کند. این امضاها از مدل‌های ساده (مانند عبارت باقاعده) یا مدل‌های پیچیده (مانند مدل پنهان مارکوف) تشکیل می‌شوند که می‌توانند معرف گروه‌ها، دامنه‌ها یا موقعیت‌های پروتئین‌ها باشند. اطلاعات در اینترپرو از نظر دسته‌بندی می‌توانند عضو یک پایگاه داده، نوع ورودی (خانواده، دامنه و غیره) یا گونه دسته‌بندی شوند.

صفحهٔ اینترنتی InterPro

هدف بنیان اینترپرو، دسترسی به چند پایگاه داده متفاوت و کاهش افزونگی‌های آنهاست. این کار به کاربران در تفسیر نتایج تحلیل دنباله‌ها کمک می‌کند. اینترپرو با متحد کردن پایگاه داده‌ها به ابزار قدرتمندی برای تشخیص و پیش‌بینی تبدیل شده‌است.

اعضای اینترپرو ویرایش

اینترپرو از تعدادی پایگاه داده تشکیل شده‌است. کار اصلی اینترپرو ادغام و همسان سازی این پایگاه داده‌ها است. گروه‌های مختلفی از محققان هر کدام از این پایگاه داده‌ها را جمع‌آوری کرده‌اند. این پایگاه داده‌ها شباهت‌هایی به هم دارند که در ادامه می‌بینید:

  • CATH-Gene3D: این پایگاه داده از دو قسمت تشکیل شده‌است:
    • CATH یک طبقه‌بندی ساختار پروتئین‌های بانک دادهٔ پروتئین است.
    • Gene3D از اطلاعات موجود در CATH برای پیش‌بینی موقعیت‌های حوزه‌های ساختاری بر روی میلیون‌ها دنبالهٔ پروتئین‌ها در بانک اطلاعاتی استفاده می‌کند.
  • CCD: مخفف Conserved Domain Database است. این پایگاه داده مجموعه ای از مدل‌های هم‌ترازسازی چند توالی تفسیر شده برای خوزه‌های باستانی و پروتئین‌های تمام طول تشکیل شده‌است.
  • HAMAP: این پایگاه داده نیز برای طبقه‌بندی و تفسیر دنباله‌های پروتئینی تشکیل شده‌است. در این پایگاه داده مجموعه پروفایل‌های طراحی شده برای دسته‌بندی پروتئین‌ها و قوانین تفسیری وجود دارند که اعضای خانواده‌های پروتئین‌ها به کار می‌روند.
  • PANTHER: این پایگاه داده برای طبقه‌بندی پروتئین‌ها و ژن آنها به منظور تسهیل و توان بالا در تجزیه و تحلیل طراحی شده‌است. برای هر خانواده مدل پنهان مارکو برای هر خانواده و زیرخانواده تشکیل شده‌است تا به تشخیص کمک کند.
  • Pfam: همانند سایر پایگاه داده‌های یادشده در این قسمت، این پایگاه داده نیز پروتئین‌ها را با کمک هم‌ترازسازی چند توالی (که خود از مدل پنهان مارکو کمک می‌گیرد) تفسیر و دسته‌بندی می‌کند.
  • PIRSF: این پایگاه داده، سیستم طبقه‌بندی پروتئین یک شبکه با سطوح مختلفی از تنوع توالی از خانواده‌های خانوادگی به زیر خانواده‌ها است که منعکس کننده رابطه تکاملی پروتئین‌ها و دامنه‌های تمام طول است.
  • PRINTS: در این پایگاه داده، برای هر خانواده پروتئین یک اثر انگشت مطرح می‌شود. اثر انگشت هر گروه از تعدادی نقوش خاص تشکیل شده‌است. معمولاً این نقوش با یکدیگر همپوشانی ندارند، اما می‌توانند در کنار هم بیایند تا در فضای ۳ بعدی یک شکل اتصال مولکولی را بسازند.
  • PROSITE: در این پایگاه داده با استفاده از الگوها و مشخصات بیولوژیکی، می‌توان تشخیص داد که یک دنبالهٔ جدید به کدام خانوادهٔ پروتئینی تعلق دارد.
  • SFLD: این پایگاه داده بر روی شناسایی ویژگی و ساختارهای خاص هر دنباله که گونه‌های مختلفی از واکنش‌ها یا ویژگی‌های بستر هستند، تمرکز می‌کند. در این پایگاه داده، دنباله‌های آنزیم، ساختار و مأموریت مولکولی را به طرح طبقه‌بندی سلسله مراتبی توسط خانواده‌های آنزیمی پیوند می‌دهد.
  • SUPERFAMILY: کتابخانه ای از مدل‌های مارکوف پنهان است که نشان دهندهٔ تمام پروتئین‌های ساختار-شناخته شده‌است. این کتابخانه براساس طبقه‌بندی SCOP پروتئین‌ها ساخته شده‌است: هر مدل با یک دامنه SCOP مطابقت دارد و قصد دارد کلیه خانواده‌های SCOP را که دامنه به آن تعلق دارد را نشان دهد.
  • TIGRFAMs: مجموعه ای از خانواده‌های پروتئینی است، که شامل ترازهای متوالی چندگانه، مدل‌های مارکوف پنهان و یادداشت‌هایی است که ابزاری برای شناسایی پروتئین‌های مرتبط با عملکردی بر اساس همسانی دنباله‌ها فراهم می‌کند.

منابع ویرایش

  • "What is CATH-Gene3D?" (به انگلیسی). Retrieved 1 June 2020.
  • "Conserved Domains and Protein Classification" (به انگلیسی). Retrieved 1 June 2020.
  • "What is HAMAP?" (به انگلیسی). Retrieved 1 June 2020.
  • "InterPro" (به انگلیسی). Retrieved 1 June 2020.
  • "SFLD" (به انگلیسی). Archived from the original on 5 June 2020. Retrieved 1 June 2020.

پیوند به بیرون ویرایش