داده‌ورزی تنوع‌زیستی

داده‌ورزی (انفورماتیک) تنوع‌زیستی (به انگلیسی: Biodiversity informatics) استفاده از تکنیک‌های داده‌ورزی در اطلاعات تنوع‌زیستی برای مدیریت، ارائه، کشف، اکتشاف و تجزیه و تحلیل بهبود یافته‌است. این روش، به‌طور معمول بر پایه‌ای از اطلاعات آرایه‌شناسی، زیست‌جغرافیایی یا زیست‌محیطی که به صورت دیجیتالی ذخیره شده‌اند، ساخته می‌شود، که با استفاده از روش‌های به روز رایانشی، می‌تواند برای مشاهده و تجزیه و تحلیل اطلاعات موجود و هم‌چنین مدل‌های پیش‌بینی‌کنندهٔ اطلاعات ناموجود، روش‌های جدیدی ارائه دهد. داده‌ورزی تنوع‌زیستی یک علم نسبتاً جوان است (این اصطلاح در حدود سال ۱۹۹۲ ابداع شده‌است)، اما در سراسر جهان، صدها نفر از آن استفاده می‌کنند، از جمله، تعداد افراد زیادی که در طراحی و ساخت پایگاه‌داده‌های آرایه‌شناسی (تاکسونومی) مشارکت دارند. اصطلاح «داده‌ورزی تنوع‌زیستی» به‌طور کلی به ادارهٔ اطلاعات تنوع‌زیستی توسط روش‌های رایانشی، اشاره می‌کند. معمولاً برای ادارهٔ داده‌های خاص زیست‌شناسی مولکولی توسط روش‌های رایانشی، اصطلاح وسیع‌تر «بیوانفورماتیک» استفاده می‌شود.

بررسی اجمالیویرایش

داده‌ورزی تنوع‌زیستی (که با بیوانفورماتیک متفاوت ولی مرتبط است)، استفاده از روش‌های فناوری‌اطلاعات برای مشکلات سازمان‌دهی، دسترسی، تجسم و تجزیه و تحلیل داده‌های اولیه تنوع‌زیستی است. داده‌های تنوع‌زیستی اولیه، از نام‌ها، مشاهدات و سوابق نمونه‌ها و داده‌های ژنتیکی و ریخت‌شناسی مرتبط با یک نمونه تشکیل شده‌است. داده‌ورزی تنوع‌زیستی، حتی ممکن است به مدیریت اطلاعات گونه‌های بی‌نام مانند آنچه در نمونه‌گیری‌های زیست‌محیطی و تعیین توالی نمونه‌های میدانی مختلط تولید می‌شوند، نیاز داشته‌باشد. اصطلاح داده‌ورزی تنوع‌زیستی همچنین برای مسائل رایانشی مختص به نام اشخاص زیستی استفاده می‌شود، مانند تولید الگوریتم‌هائی که برای مقابله با چندینی نمایش‌دهنده‌های داده‌ها استفاده می‌شوند.

تاریخ علمویرایش

می‌توان گفت که داده‌ورزی تنوع‌زیستی، همراه با ساخت اولین بانک‌های اطلاعاتی ساختارشناسی رایانشی در اوایل دهه ۱۹۷۰ آغاز شده‌است، و تا اواخر دههٔ ۱۹۹۰ پیش‌رفت کرده‌است، از طریق توسعه‌های متوالی ابزارهای جستجوی توزیع‌شده، از جمله تحلیل‌گر گونه‌ها از دانشگاه کانزاس، شبکه اطلاعات تنوع‌زیستی NABIN در آمریکای شمالی، CONABIO در مکزیک، و دیگران،[۱] تأسیس سازمان اطلاعات جهانی تنوع‌زیستی در سال ۲۰۰۱، و توسعه هم‌زمان انواع مدل‌سازی طاقچه و دیگر ابزارهای کار با داده‌های دیجیتالی‌شده تنوع‌زیستی از اواسط دهه ۱۹۸۰ به بعد (به عنوان مثال[۲]). در سپتامبر سال ۲۰۰۰، ژورنال ساینس نسخه ویژه‌ای را به «بیوانفورماتیک برای تنوع‌زیستی» اختصاص داد،[۳] مجله «داده‌ورزی تنوع‌زیستی» در سال ۲۰۰۴ نشر را آغاز کرد و چندین کنفرانس بین‌المللی از در دههٔ ۲۰۰۰، متخصصان داده‌ورزی زیست‌شناسی را گرد هم آورد، از جمله همایش الکترونیکی زیست کره بایگانی‌شده در ۲ آوریل ۲۰۱۹ توسط Wayback Machine در ژوئن ۲۰۰۹ در لندن.

تاریخچه اصطلاحویرایش

مطابق مکاتبات بازسازی شده توسط والتر براندزون،[۴] اصطلاح «داده‌ورزی تنوع‌زیستی» توسط جان وایتینگ در سال ۱۹۹۲ ابداع شده، تا فعالیت‌های گروهی موسوم به شرکتگان داده‌ورزی زیستی تنوع‌زیستی کانادا را پوشش دهد، گروهی که درگیر ترکیب اطلاعات پایه‌ای تنوع‌زیستی با اقتصاد محیط‌زیستی و اطلاعات جغرافیایی به صورت GPS و GIS هستند. سپس، به نظر می‌رسد که ارتباط واضح با جهان GPS / GIS را از دست داده و با ادارهٔ رایانشی هر جنبه‌ای از اطلاعات تنوع‌زیستی مرتبط شده‌است (به عنوان مثال نگاه کنید به[۵]).

مسائل کنونی در زمینه داده‌ورزی تنوع‌زیستیویرایش

لیست جهانی همهٔ گونه‌هاویرایش

یک مسئله مهم برای داده‌ورزی تنوع‌زیستی در مقیاس جهانی، عدم حضور یک لیست مرجع کامل از گونه‌های شناخته‌شده در جهان است، اگر چه این یک هدف پروژه Catalog of Life است، که حدود ۱٫۶۵ میلیون گونه از ۱٫۹ میلیون گونه تخمینی، را در فهرست سالیانه سال ۲۰۱۶ خود توصیف کرده‌است. یک تلاش مشابه برای گونه‌های فسیلی، پایگاه داده Paleobiology[۶] است که از تعداد کل ناشناخته، حدود بیش از ۱۰۰٬۰۰۰ نام برای گونه‌های فسیلی را سند می‌کند.

نام‌های علمی جنس‌ها و گونه‌ها به عنوان شناسهٔ منحصر به فردویرایش

استفاده از سیستم لینه برای نام‌گذاری دوکلمه‌ای برای گونه‌ها، و تک‌کلمه‌ای برای جنس‌ها و مراتب بالاتر، به مزیت‌های بسیاری منجر می‌شود، اما هم‌چنین باعث ایجاد مشکلاتی با هم‌آواها (حالتی که یک نام برای گونه‌های متعدد استفاده شود، ناآگاهانه یا از عمد)، مترادف‌ها (نام‌های چندگانه برای یک گونه)، و هم‌چنین نمایش‌های متعدد یک نام به دلیل اختلافات املایی، خطاهای جزئی املایی، تعدد در نحوه استناد به نام نویسنده‌ها و تاریخ‌ها و موارد دیگر می‌شود. در ادامه، ممکن است در طول زمان نام‌ها به دلیل تغییر نظرات آرایه‌شناختی تغییر کنند (به عنوان مثال، قرارگیری یک گونه در دسته‌بندی صحیح، یا ارتقا یک زیرگونه به رتبه گونه‌ها یا بالعکس)، و همچنین ممکن است شرح حال یک گونه، به دلیل نظرات مختلف نویسندگان تغییر کند. یک راه حل پیشنهادی برای حل این مشکل، استفاده از شناسه‌های Life of Science یا همان Lsids برای ارتباطات ماشین به ماشین است، اگرچه این رویکرد، طرفداران و مخالفان خود را دارد.

طبقه‌بندی اجماعی موجودات زندهویرایش

موجودات زنده می‌توانند به روش‌های مختلفی طبقه‌بندی شوند (به صفحه اصلی آرایه‌شناسی زیستی مراجعه کنید)، که می‌تواند برای سیستم‌های انفورماتیک تنوع‌زیستی که هدف تعیین یک یا چند دسته‌بندی دارند، مشکلات طرحی ایجاد کند. این که آیا یک سیستم طبقه‌بندی اجماعی واحد ممکن است به دست آید، یک سؤال باز است، اما کاتالوگ حیات فعالیت‌هایی را در این زمینه انجام داده‌است[۷] که توسط یک سامانه منتشرشده در سال ۲۰۱۵ توسط M. Ruggiero و همکاران، موفق شده‌است.[۸]

تجهیز اطلاعات اولیه تنوع زیستیویرایش

اطلاعات «اولیه» مربوط به تنوع‌زیستی را می‌توان داده‌های پایه‌ای در مورد وقوع و تنوع گونه‌ها (یا در حقیقت هر گونه قابل تشخیص) دانست، که معمولاً در ارتباط با اطلاعات مربوط به توزیع آن‌ها در مکان، زمان، یا هر دو است. چنین اطلاعاتی ممکن است در قالب نمونه‌های نگهداری‌شده و اطلاعات مرتبط با آن باشد، به عنوان مثال مجموعه‌های تاریخی طبیعی در موزهها و مجموعه گیاهان دارویی خشک‌شده، یا به عنوان سوابق مشاهده‌ای، مانند نظرسنجی‌ها، یا به عنوان مشاهدات حرفه‌ای و سایر مشاهدات برنامه‌ریزی‌شده یا برنامه‌ریزی‌نشده که شامل مشاهداتی که در محدوده علوم شهروندی قرار می‌گیرند. فراهم دست‌رسی برخط دیجیتالی و منسجم به این مجموعه وسیع از داده‌های اصلی اولیه، یک کارکرد اصلی داده‌ورزی تنوع‌زیستی است که در قلب شبکه‌های داده تنوع‌زیستی منطقه‌ای و جهانی قرار دارد، مانند OBIS و تسهیلات جهانی اطلاعات تنوع زیستی.

به عنوان یک منبع ثانویه داده‌های تنوع‌زیستی، ادبیات علمی مربوط به آن را می‌تواند توسط انسان یا (احتمالاً) توسط الگوریتم‌های بازیابی اطلاعات تخصصی، تجزیه و تحلیل کرد، تا اطلاعات تنوع‌زیستی در آن‌جا گزارش شود. مؤلفه‌های چنین فعالیتی (مانند استخراج شناسه‌های کلیدی آرایه‌شناختی، اصطلاحات نمایه‌ای، و غیره) سال‌هاست که توسط بانک‌های اطلاعات دانشگاهی و موتورهای جستجو دنبال می‌گردند. اما برای حداکثر ارزش داده‌ورزی تنوع‌زیستی، در صورت ایدئال، خود داده‌های وقایع اولیه باید بازیابی شوند و سپس به صورت یک یا چند فرم استاندارد ارائه شوند. برای مثال هر دو پروژهٔ Plazi و INOTAXA بایگانی‌شده در ۳ ژوئن ۲۰۲۰ توسط Wayback Machine، ادبیات آرایه‌شناختی را به فرمت‌های XML تبدیل می‌کنند، که می‌تواند توسط برنامه‌های سرویس‌گیرنده خوانده‌شود. کتابخانه میراث تنوع‌زیستی نیز، در دیجیتال کردن بخش‌های قابل توجهی از ادبیات آرایه‌شناختی که در حق چاپ نیستند، در حال پیش‌رفت است.

استانداردها و پروتکل‌هاویرایش

همانند سایر علوم مرتبط با داده، داده‌ورزی تنوع‌زیستی از تصویب استانداردها و رویکردهای مناسب به منظور پشتیبانی از ارتباطات ماشین با ماشین و قابلیت همکاری اطلاعات در حوزه خاص خود بهره می‌برد. نمونه‌هایی از استانداردهای مناسب، شامل طرح XML هسته داروین برای نمونه‌ها و داده‌های تنوع‌زیستی مبتنی بر نظارت که از سال ۱۹۹۸ به بعد به دست آمده‌اند، به علاوه پسوندهایی از آن، طرح انتقال مفاهیم آرایه‌شناختی، به علاوه استانداردهای داده‌های توصیفی ساختاریافته و دسترسی به مجموعه داده‌های زیستی (ABCD)؛ در حالی که روی‌کردهای بازیابی و انتقال داده‌ها شامل DiGIR (اکنون اکثراً جایگزین شده) و TAPIR (پروتکل دسترسی TDWG برای بازیابی اطلاعات) هستند. نگه‌داری و نظارت بر توسعه بسیاری از این استانداردها و پروتکل‌ها در حال حاضر توسط گروه کاری بانک‌های اطلاعاتی آرایه‌شناسی (TDWG) انجام می‌گردد.

فعالیت‌های کنونیویرایش

در کنفرانس الکترونیکی زیست‌کره در سال ۲۰۰۹ در انگلستان،[۹] مضامین زیر تصویب شدند، که نشان‌دهنده طیف گسترده‌ای از فعالیت‌های داده‌ورزی تنوع‌زیستی فعلی و نحوه ممکن طبقه‌بندی آن‌ها است:

  • کاربرد: حفاظت/کشاورزی/شیلات/صنعت/جنگل‌داری
  • کاربرد: گونه‌های بیگانه تهاجمی
  • کاربرد: زیست‌شناسی سامانه‌ای و تکاملی
  • کاربرد: سامانه‌های آرایه‌شناختی و شناسایی
  • ابزارها، خدمات و استانداردهای جدید برای مدیریت و دست‌رسی به داده‌ها
    • ابزارهای مدل‌سازی جدید
    • ابزارهای جدید برای ادغام داده‌ها
    • رویکردهای جدید به زیرساخت‌های تنوع‌زیستی
    • رویکردهای جدید به شناسایی گونه‌ها
    • رویکردهای جدید به نگاشت تنوع‌زیستی
  • پایگاه‌داده‌ها و شبکه‌های تنوع‌زیستی ملی و منطقه‌ای

یک کارگاه آموزشی پس از کنفرانس، متشکل از افراد با نقش‌های مهم در علم انفورماتیک تنوع‌زیستی کنونی، هم‌چنین به یک قطعنامه کارگاه منجر شد که از جمله جنبه‌های دیگر، بر لزوم ایجاد منابع جهانی برای داده‌ورزی تنوع‌زیستی تأکید کرد.

پروژه‌های انفورماتیک تنوع‌زیستی نمونهویرایش

جهانی:

پروژه‌های منطقه‌ای/ملی:

لیستی از بیش از ۶۰۰ فعالیت در زمینه انفورماتیک تنوع‌زیستی، در پایگاه‌داده «پروژه‌های اطلاع‌رسانی تنوع‌زیستی جهان» در TDWG یافت می‌شود.

جستارهای وابستهویرایش

  • تنوع‌زیستی
  • تنوع‌زیستی جهانی
  • بانک اطلاعاتی آرایه‌شناختی
  • ارایه‌شناسی مبتنی بر وب
  • لیست بانک‌های اطلاعاتی تنوع‌زیستی

منابعویرایش

  1. Krishtalka L & Humphrey PS (2000). "Can Natural History Museums Capture the Future?". BioScience. 50 (7): 611–617. doi:10.1641/0006-3568(2000)050[0611:CNHMCT]2.0.CO;2.
  2. Peterson AT & Vieglais D (2001). "Predicting Species Invasions Using Ecological Niche Modeling: New Approaches from Bioinformatics Attack a Pressing Problem" (PDF). BioScience. 51 (5): 363–371. doi:10.1641/0006-3568(2001)051[0363:PSIUEN]2.0.CO;2. Archived from the original (PDF) on 7 August 2016. Retrieved 3 June 2020.
  3. "Bioinformatics for Biodiversity?". Science. 289: 2229–2440. 2000.
  4. ""Biodiversity Informatics", The Term". Retrieved 2009-08-06.
  5. Bisby FA; et al. (2000). "The Quiet Revolution: Biodiversity Informatics and the Internet". Science. 289 (5488): 2309–2312. Bibcode:2000Sci...289.2309B. doi:10.1126/science.289.5488.2309. PMID 11009408.
  6. "the Paleobiology Database". Retrieved 2009-08-06.
  7. "Towards a management hierarchy (classification) for the Catalogue of Life. Draft Discussion Document by Dr. Dennis P. Gordon, May 2009". Archived from the original on 2009-08-08. Retrieved 2009-08-06.
  8. Ruggiero, M.A.; Gordon, D.P.; Orrell, T.M.; Bailly, N.; Bourgoin, T.; Brusca, R.C.; et al. (2015). "A higher level classification of all living organisms". PLOS ONE. 10 (4): e0119248. Bibcode:2015PLoSO..1019248R. doi:10.1371/journal.pone.0119248. PMC 4418965. PMID 25923521.
  9. «نسخه آرشیو شده». بایگانی‌شده از اصلی در ۲ آوریل ۲۰۱۹. دریافت‌شده در ۳ ژوئن ۲۰۲۰.

مطالب بیشترویرایش

پیوند به بیرونویرایش