دریاچه داده (انگلیسی: Data lake) سیستم یا مخزن داده‌ای است که در قالب خام یا طبیعی و معمولاً به شکل بلاب‌های شیئی یا فایل ذخیره شده‌است،[۱] دریاچه داده معمولاً یک ذخیره واحد از داده‌ها شامل نسخه‌های خام داده‌های سیستم منبع، داده‌های حسگر، داده‌های اجتماعی و غیره است،[۲] و داده‌های تبدیل‌شده که برای کارهایی مانند گزارش‌دهی، مصورسازی داده، تجزیه و تحلیل پیشرفته و یادگیری ماشین استفاده می‌شود. یک دریاچه داده می‌تواند شامل داده‌های ساختاریافته از پایگاه‌های داده رابطه‌ای (ردیف‌ها و ستون‌ها)، داده‌های نیمه ساختاریافته (CSV، گزارش‌ها، XML، JSONداده‌های بدون ساختار (ایمیل‌ها، اسناد، فایل‌های PDF) و داده‌های باینری (تصاویر، صدا، ویدئو) باشد.[۳] یک دریاچه داده را می‌توان «در محل» (در مراکز داده سازمان) یا «در فضای ابری» (با استفاده از خدمات ابری از فروشندگانی مانند آمازون، مایکروسافت، یا گوگل) ایجاد کرد.

دریاچه‌های داده‌ای که مدیریت ضعیفی دارند، به‌طور ظاهری باتلاق داده نامیده می‌شوند.[۴]

مثال‌ها ویرایش

بسیاری از شرکت‌ها از سرویس‌های ذخیره‌سازی ابری مانند Google Cloud Storage و Amazon S3 یا یک سیستم فایل توزیع‌شده مانند سیستم فایل توزیع‌شده Apache Hadoop (ADFS) استفاده می‌کنند.[۵] علاقهٔ عمومی در حال ازدیاد دانشگاهی به مفهوم دریاچه‌های داده وجود دارد. به عنوان مثال، Personal DataLake در دانشگاه کاردیف نوع جدیدی از دریاچه داده‌است که هدف آن مدیریت کلان داده‌های کاربران با ارائه یک نقطه واحد جمع‌آوری، سازمان‌دهی و اشتراک‌گذاری داده‌های شخصی است.

جستارهای وابسته ویرایش

  • دریاچه داده آژور

منابع ویرایش

  1. "The growing importance of big data quality". The Data Roundtable. Retrieved 1 June 2020.
  2. "What is a data lake?". aws.amazon.com. Retrieved 12 October 2020.
  3. Campbell, Chris. "Top Five Differences between DataWarehouses and Data Lakes". Blue-Granite.com. Archived from the original on 15 September 2017. Retrieved 19 May 2017.
  4. Olavsrud, Thor (June 8, 2017). "3 keys to keep your data lake from becoming a data swamp". CIO (به انگلیسی). Retrieved 2021-01-04.
  5. Tuulos, Ville (22 September 2015). "Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances". NextRoll.