مدل‌های داده‌محور (به انگلیسی: Data-driven models) دسته‌ای از مدل‌های محاسباتی هستند که عمدتاً به داده‌های تاریخی جمع‌آوری‌شده در طول عمر یک سیستم یا فرایند برای ایجاد روابط بین متغیرهای ورودی، داخلی و خروجی متکی هستند. مدل‌های داده‌محور که معمولاً در مقالات و نشریات متعدد یافت می‌شوند، از مدل‌های آماری قبلی تکامل یافته‌اند و بر محدودیت‌های ناشی از فرضیات دقیق در مورد توزیع‌های احتمال غلبه کرده‌اند. این مدل‌ها در زمینه‌های مختلف، به‌ویژه در عصر داده‌های بزرگ، هوش مصنوعی، و یادگیری ماشین، که در آن بینش‌ها و پیش‌بینی‌های ارزشمندی بر اساس داده‌های موجود ارائه می‌دهند، شهرت یافته‌اند.

پیشینه ویرایش

این مدل‌ها از مدل‌های آماری قبلی تکامل یافته‌اند، که مبتنی بر فرضیات خاصی در مورد توزیع‌های احتمال بودند که اغلب ثابت می‌شد بیش از حد محدودکننده هستند.[۱] ظهور مدل‌های داده‌محور در دهه‌های ۱۹۵۰ و ۱۹۶۰ با توسعه رایانه‌های دیجیتال، پیشرفت‌ها در تحقیقات هوش مصنوعی و معرفی رویکردهای جدید در مدل‌سازی غیر رفتاری، مانند تشخیص الگو و طبقه‌بندی خودکار، مصادف شد.[۲]

مفاهیم کلیدی ویرایش

مدل‌های داده محور طیف گسترده‌ای از تکنیک‌ها و روش‌ها را در بر می‌گیرند که هدف آن پردازش و تجزیه و تحلیل هوشمندانه مجموعه داده‌های بزرگ است. مثال‌ها عبارتند از منطق فازی، مجموعه‌های فازی و خشن برای مدیریت عدم قطعیت،[۳] شبکه‌های عصبی برای تقریب توابع،[۴] بهینه‌سازی جهانی و محاسبات تکاملی،[۵] نظریه یادگیری آماری،[۶] و روش‌های بیزی.[۷] این مدل‌ها در زمینه‌های مختلف، از جمله اقتصاد، مدیریت ارتباط با مشتری، خدمات مالی، پزشکی و نظامی و غیره کاربرد پیدا کرده‌اند.[۸]

یادگیری ماشینی، زیرشاخه‌ای از هوش مصنوعی، ارتباط نزدیکی با مدل‌سازی مبتنی بر داده دارد، زیرا بر استفاده از داده‌های تاریخی برای ایجاد مدل‌هایی تمرکز دارد که می‌توانند پیش‌بینی کنند و الگوها را شناسایی کنند.[۹] در واقع، بسیاری از مدل‌های مبتنی بر داده، تکنیک‌های یادگیری ماشین، مانند الگوریتم‌های رگرسیون، طبقه‌بندی، و خوشه‌بندی را برای پردازش و تجزیه و تحلیل داده‌ها در بر می‌گیرند.[۱۰]

در سال‌های اخیر، مفهوم مدل‌های داده‌محور توجه قابل‌توجهی را در زمینه منابع آب به خود جلب کرده است، با کاربردهای متعدد، دوره‌های آکادمیک و انتشارات علمی که از این اصطلاح به عنوان تعمیم مدل‌هایی استفاده می‌کنند که به جای فیزیک بر داده‌ها تکیه می‌کنند.[۱۱]] این طبقه‌بندی در نشریات مختلف به نمایش درآمده و حتی در دهه گذشته باعث توسعه مدل‌های هیبریدی شده است. مدل‌های ترکیبی تلاش می‌کنند درجه اطلاعات مبتنی بر فیزیکی مورد استفاده در مدل‌های هیدرولوژیکی را کمی کنند و تعیین کنند که آیا فرایند ساخت مدل اساساً توسط فیزیک هدایت می‌شود یا صرفاً مبتنی بر داده‌ها. در نتیجه، مدل‌های داده‌محور به موضوعی ضروری برای بحث و اکتشاف در مدیریت و تحقیق منابع آب تبدیل شده‌اند.[۱۲]

اصطلاح «مدل‌سازی مبتنی بر داده» (DDM) به الگوی فراگیر استفاده از داده‌های تاریخی در ارتباط با تکنیک‌های محاسباتی پیشرفته، از جمله یادگیری ماشین و هوش مصنوعی، برای ایجاد مدل‌هایی اشاره دارد که می‌توانند روندها، الگوها و در برخی موارد زیربنایی را آشکار کنند. پیش‌بینی کنید[۱۳]مدل‌های مبتنی بر داده را می‌توان با یا بدون دانش دقیق از فرآیندهای زیربنایی حاکم بر رفتار سیستم ساخت، که باعث می‌شود در مواقعی که چنین دانشی وجود نداشته باشد یا تکه‌تکه باشد، بسیار مفید باشد.[۱۴]

منابع ویرایش

  1. David, A. , Freedman. (2006). On The So-Called “Huber Sandwich Estimator” and “Robust Standard Errors”. The American Statistician, 60(4):299-302. doi:10.1198/000313006X152207
  2. Richard, O. , Duda. , Peter, E. , Hart. (1973). Pattern classification and scene analysis.
  3. J. , A. , Goguen. (1973). Zadeh L. A.. Fuzzy sets. Information and control, vol. 8 (1965), pp. 338–353. Zadeh L. A.. Similarity relations and fuzzy orderings. Information sciences, vol. 3 (1971), pp. 177–200.. Journal of Symbolic Logic, 38(4):656-657. doi:10.2307/2272014
  4. Simon, Haykin. (2009). Neural Networks and Learning Machines 3rd Edition: Simon Haykin.
  5. David, E. , Goldberg. (1988). Genetic algorithms in search, optimization, and machine learning. University of Alabama.
  6. Vapnik, V. (1995). The nature of statistical learning theory. Springer.
  7. Paul, Hewson. (2015). Bayesian Data Analysis 3rd edn A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari and D. B. Rubin, 2013 Boca Raton, Chapman and Hall–CRC 676 pp. , ISBN 1-4398-4095-4. Journal of The Royal Statistical Society Series A-statistics in Society, 178(1):301-301
  8. Usama, M. , Fayyad. , Gregory, Piatetsky-Shapiro. , Padhraic, Smyth. (1996). From Data Mining to Knowledge Discovery in Databases. Ai Magazine, 17(3):37-54.
  9. Mitchell, T. M. (1997). Machine learning. McGraw Hill Series in Computer Science
  10. Alpaydin, E. (2020). Introduction to machine learning. MIT Press.
  11. Robert, J. , Abrahart. , Linda, M. , See. , Dimitri, Solomatine. (2008). Practical hydroinformatics: computational intelligence and technological developments in water applications.
  12. G.A. , Corzo, Perez. (2009). Hybrid models for Hydrological Forecasting: integration of data-driven and conceptual modelling techniques.
  13. Foster, Provost. , Tom, Fawcett. (2013). Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.
  14. M. , Cheng. , Fangxin, Fang. , Christopher, C. , Pain. , Ionel, Michael, Navon. (2020). Data-driven modelling of nonlinear spatio-temporal fluid flows using a deep convolutional generative adversarial network. Computer Methods in Applied Mechanics and Engineering, 365:113000-