کلانداده
کلانداده، مهداده[۱][۲] یا بزرگداده (به انگلیسی: big data) معمولاً به مجموعه دادههایی گفته میشود که بیش از حد بزرگ یا پیچیده هستند که نمیتوان با نرمافزارهای کاربردی پردازش داده سنتی آنها را پردازش کرد. دادههای با ورودیهای زیاد (ردیفها) توان آماری بیشتری را ارائه میدهند، در حالی که دادههای با پیچیدگی بالاتر (ویژگیها یا ستونهای بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود.[۳] در حقیقت میتوان گفت، مهداده حجم وسیعی از اطلاعات است که اگر حجم آن کم باشد قابل تفسیر و برداشت نیست.[۴]
چالشهای تجزیه و تحلیل مهدادهها شامل جمعآوری دادهها، ذخیرهسازی دادهها، تجزیه و تحلیل دادها، جستجوی آنها، اشتراک گذاری، انتقال، مصورسازی داده، پرسمان، به روز رسانی، حریم خصوصی اطلاعات و تعیین منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت.[۵] بدون سرمایهگذاری کافی در تخصص برای صحت کلان دادهها، حجم و تنوع دادهها میتواند هزینهها و خطراتی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از دادههای بزرگ است.[۶] استفاده کنونی از واژه مهداده به استفاده از تحلیل پیشگویانه، تحلیل رفتار کاربر یا برخی دیگر از روشهای پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از دادههای بزرگ استخراج میکند و به ندرت به اندازهٔ خاصی از مجموعه دادهها میپردازد. «شکی وجود ندارد که حجم دادههای موجود در حال حاضر واقعاً زیاد است، اما این مهمترین ویژگی این اکوسیستم داده جدید نیست.»[۷] تجزیه و تحلیل مجموعه دادهها میتواند همبستگیهای جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماریها، مبارزه با جرم و جنایت و غیره» پیدا کند.
امروزه اندازه و تعداد مجموعه دادههای موجود به سرعت رشد کرده است زیرا دادههای فراوانی توسط دستگاههایی مانند دستگاههای تلفن همراه، دستگاههای ارزان و متعدد سنجش اطلاعات اینترنت اشیا، سنجش از دور، گزارشهای نرمافزارها، دوربینها، میکروفونها، سامانه بازشناسی با امواج رادیویی (RFID)، ریدرها و شبکههای حسگر بیسیم جمعآوری میشود.[۸][۹]
سیستمهای مدیریت پایگاه داده رابطهای و بستههای نرمافزار آماری رومیزی که برای مصورسازی دادهها استفاده میشوند، اغلب در پردازش و تجزیه و تحلیل مهدادهها با مشکل مواجه هستند. پردازش و تجزیه و تحلیل دادههای بزرگ ممکن است نیاز به «نرمافزار موازی گستردهای داشته باشد که بر روی دهها، صدها یا حتی هزاران سرور اجرا میشود».[۱۰] کاربرد عنوان "مهداده" به مجموعهای از دادهها، به تواناییهای کسانی که آن را تجزیه و تحلیل میکنند و ابزار آنها بستگی دارد. برای برخی از سازمانها، مواجه شدن با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازنگری در گزینههای مدیریت دادهها را ایجاد کند. برای برخی دیگر، ممکن است دهها یا صدها ترابایت طول بکشد تا اندازه دادهها به یک موضوع قابل توجه تبدیل شود.»[۱۱]
تعریف
ویرایشعبارت big data یا مهداده از دهه ۱۹۹۰ مورد استفاده قرار گرفته است و برخی رواج آن را به دانشمند علوم رایانه آمریکایی، جان مَشی نسبت میدهند.[۱۲][۱۳] مهداده معمولاً شامل مجموعه دادههایی است که اندازه آن فراتر از توانایی ابزارهای نرمافزاری رایج برای جمعآوری، گزینش، مدیریت و پردازش دادهها در مدت زمان قابل تحمل است.[۱۴] فلسفه دادههای بزرگ شامل دادههای بدون ساختار، نیمه ساختاریافته و ساختاریافته است، با این حال، تمرکز اصلی بر روی دادههای بدون ساختار است.[۱۵] «اندازه» دادههای بزرگ یک هدف دائماً در حال حرکت است و از سال ۲۰۱۲ از چند ده ترابایت تا چندین زتابایت داده تغییر کرده است.[۱۶] مهداده به مجموعهای از روشها و فنآوریها با اشکال جدید ادغام نیاز دارد تا بینشهایی را از مجموعههای دادهای که متنوع، پیچیده و در مقیاس وسیع هستند، آشکار کند.[۱۷]
ویژگیها
ویرایشکلان داده را میتوان با ویژگیهای زیر توصیف کرد:
حجم
ویرایشمقدار دادههای تولید شده و ذخیره شده اندازه دادهها ارزش و بینش بالقوه را تعیین میکند و اینکه آیا میتوان آن را مهداده در نظر گرفت یا خیر. اندازه مهداده معمولاً بزرگتر از ترابایت و پتابایت است.[۱۸]
تنوع
ویرایشتنوع نوع و ماهیت دادهها. فناوریهای قبلی مانند RDBMSs قادر بودند دادههای ساختاریافته را به صورت کارآمد و مؤثر مدیریت کنند. اما تغییر نوع و ماهیت از ساختاریافته به نیمهساختاریافته یا بدون ساختار، ابزارها و فناوریهای موجود را به چالش کشید. فناوریهای دادههای بزرگ با هدف اصلی جمعآوری، ذخیرهسازی و پردازش دادههای نیمهساختاریافته و بدون ساختار (تنوع) که با سرعت بالا (سرعت) و حجم عظیم (حجم) تولید میشدند، تکامل یافتند. بعداً، این ابزارها و فناوریها برای مدیریت دادههای ساختاریافته نیز کاوش و استفاده شدند اما ترجیحاً برای ذخیرهسازی. در نهایت، پردازش دادههای ساختاریافته هنوز به عنوان یک گزینه نگه داشته شد، یا با استفاده از دادههای بزرگ یا RDBMSs سنتی. این کمک میکند تا دادهها را به سمت استفاده مؤثر از بینشهای پنهانی که از دادههای جمعآوری شده از طریق رسانههای اجتماعی، فایلهای لاگ، حسگرها و غیره نمایان میشوند، تجزیه و تحلیل کنیم. دادههای بزرگ از متن، تصاویر، صوت، ویدیو برداشت میکند؛ علاوه بر این، قطعات گمشده را از طریق ادغام دادهها تکمیل میکند.
سرعت
ویرایشسرعت تولید و پردازش دادهها برای پاسخگویی به خواستهها و چالشهایی که در مسیر رشد و توسعه قرار دارند. دادههای بزرگ اغلب در زمان واقعی در دسترس هستند. در مقایسه با دادههای کوچک، مهدادهها با استمرار بیشتری تولید میشوند. دو نوع سرعت مربوط به مهداده عبارتند از فرکانس تولید و فرکانس پردازش، ضبط و انتشار.[۱۹]
صحت
ویرایشصحت یا قابلیت اطمینان دادهها که به کیفیت دادهها و ارزش دادهها اشاره دارد.[۲۰] مهدادهها نه تنها باید از نظر اندازه بزرگ باشند، بلکه باید قابل اعتماد نیز باشند تا در تجزیه و تحلیل آن به ارزش دست یافت. کیفیت دادههای ضبط شده میتواند بسیار متفاوت باشد و بر تجزیه و تحلیل دقیق تأثیر بگذارد.
ارزش
ویرایشارزش اطلاعاتی که میتوان با پردازش و تجزیه و تحلیل مجموعه دادههای بزرگ به دست آورد. ارزش را نیز میتوان با ارزیابی سایر کیفیتهای کلان داده اندازهگیری کرد.
تغییرپذیری
ویرایشویژگی تغییر فرمتها، ساختار یا منابع دادههای بزرگ. مهداده میتواند شامل دادههای ساختاریافته، بدون ساختار یا ترکیبی از دادههای ساختاریافته و بدون ساختار باشد. تجزیه و تحلیل مهداده ممکن است دادههای خام را از چندین منبع ادغام کند. پردازش دادههای خام ممکن است شامل تبدیل دادههای بدون ساختار به دادههای ساختار یافته نیز باشد.
کاربردها
ویرایشدولت
ویرایشاستفاده و پذیرش مهداده در فرآیندهای دولتی، امکان افزایش بازدهی را از نظر هزینه، بهرهوری و نوآوری امکانپذیر میکند،[۲۱] اما بدون نقص نیست. تجزیه و تحلیل دادهها اغلب نیاز به همکاری بخشهای متعددی از دولت دارد. یک سازمان دولتی رایج که از دادههای بزرگ استفاده میکند، آژانس امنیت ملی آمریکا (NSA) است که فعالیتهای اینترنت را بهطور مداوم در جستجوی الگوهای بالقوه فعالیتهای مشکوک یا غیرقانونی که ممکن است سیستم آنها دریافت کند، رصد میکند.
توسعه بینالمللی
ویرایشتحقیقات در مورد استفاده مؤثر از فناوریهای اطلاعات و ارتباطات برای توسعه نشان میدهد که فناوری دادههای بزرگ میتواند سهم مهمی داشته باشد اما همچنین چالشهای منحصربهفردی را برای توسعه بینالمللی ایجاد کند. پیشرفتها در تجزیه و تحلیل مهدادهها فرصتهای مقرون به صرفه را برای بهبود تصمیمگیری در زمینههای توسعه حیاتی مانند مراقبتهای بهداشتی، اشتغال، بهرهوری اقتصادی، جرم و جنایت، امنیت و بلایای طبیعی و مدیریت منابع ارائه میدهد.
دارایی و امور مالی
ویرایشمهدادهها به سرعت در امور مالی برای سرعت بخشیدن به پردازش و ارائه استنباطهای بهتر و آگاهانه تر، هم در داخل و هم برای مشتریان موسسات مالی به کار گرفته میشوند.[۲۲] کاربردهای مالی مهداده عبارتند از: تصمیمگیری در مورد سرمایهگذاری و معاملات (پردازش حجم دادههای قیمتی موجود، دفترهای سفارش محدود، دادههای اقتصادی و موارد دیگر، بهطور همزمان)، مدیریت پورتفولیو (بهینهسازی بیش از یک مجموعه بزرگ از ابزارهای مالی، بهطور بالقوه) را شامل میشود. انتخاب شده از طبقات مختلف دارایی)، مدیریت ریسک (رتبهبندی اعتبار بر اساس اطلاعات گسترده)، و هر جنبه دیگری که در آن ورودی دادهها زیاد است.[۲۳]
بهداشت
ویرایشتجزیه و تحلیل مهدادهها در مراقبتهای بهداشتی با ارائه پزشکی شخصی و تجزیه و تحلیل تجویزی، مداخله ریسک بالینی و تجزیه و تحلیل پیشبینی، کاهش تنوع ضایعات و مراقبت، گزارش خودکار دادههای داخلی و خارجی بیمار، اصطلاحات پزشکی استاندارد و ثبت بیماران مورد استفاده قرار گرفته است.
مهداده در تحقیقات بهداشتی به ویژه از نظر تحقیقات زیست پزشکی اکتشافی امیدوارکننده است، زیرا تجزیه و تحلیل مبتنی بر داده میتواند سریعتر از تحقیقات فرضیه محور به جلو حرکت کند.[۲۴]
جستارهای وابسته
ویرایشمنابع
ویرایش- ↑ ماهنامه دیدهبان فناوری. «مقدمهای بر بزرگ داده ها». بایگانیشده از اصلی در ۲۷ اوت ۲۰۱۶. دریافتشده در ۲۴ ژوئیه ۲۰۱۶.
- ↑ http://isna.ir/news/94100200756/تازه-ترین-واژه-های-مصوب-فرهنگستان
- ↑ Breur, Tom (July 2016). "Statistical Power Analysis and the contemporary "crisis" in social sciences". Journal of Marketing Analytics. London, England: Palgrave Macmillan. 4 (2–3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
- ↑ Mahdavi-Damghani, Babak (2019). Data-Driven Models & Mathematical Finance: Apposition or Opposition? (DPhil thesis). Oxford, England: University of Oxford. p. 21. SSRN 3521933.
- ↑ "The 5 V's of big data". Watson Health Perspectives (به انگلیسی). 2016-09-17. Archived from the original on 18 January 2021. Retrieved 2021-01-20.
- ↑ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance*". Journal of Product Innovation Management (به انگلیسی). 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
- ↑ boyd, dana; Crawford, Kate (21 September 2011). "Six Provocations for Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431. S2CID 148610111. Archived from the original on 28 February 2020. Retrieved 12 July 2019.
- ↑ Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog. Archived from the original on 7 October 2012. Retrieved 21 April 2010.
- ↑ Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Archived from the original on 12 May 2016. Retrieved 31 December 2015.
- ↑ Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue. Archived from the original on 8 December 2015. Retrieved 21 April 2010.
- ↑ Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11). Archived from the original on 2 November 2021. Retrieved 26 February 2021.
- ↑ John R. Mashey (25 April 1998). "Big Data … and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Archived (PDF) from the original on 12 October 2016. Retrieved 28 September 2016.
- ↑ Steve Lohr (1 February 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Archived from the original on 6 March 2016. Retrieved 28 September 2016.
- ↑ Snijders, C.; Matzat, U.; Reips, U. -D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. Archived from the original on 23 November 2019. Retrieved 13 April 2013.
- ↑ Dedić, N.; Stanier, C. (2017). "Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery". Innovations in Enterprise Information Systems Management and Engineering. Lecture Notes in Business Information Processing. Vol. 285. Berlin; Heidelberg: Springer International Publishing. pp. 114–122. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archived from the original on 27 November 2020. Retrieved 7 September 2019.
- ↑ Everts, Sarah (2016). "Information Overload". Distillations. Vol. 2, no. 2. pp. 26–33. Archived from the original on 3 April 2019. Retrieved 22 March 2018.
- ↑ Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "big data" on cloud computing: Review and open research issues". Information Systems. 47: 98–115. doi:10.1016/j.is.2014.07.006. S2CID 205488005.
- ↑ Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS). pp. 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
- ↑ Kitchin, Rob; McArdle, Gavin (17 February 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
- ↑ Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
- ↑ "The Government and big data: Use, problems and potential". Computerworld. 21 March 2012. Archived from the original on 15 September 2016. Retrieved 12 September 2016.
- ↑ Aldridge, Irene (2016). Real-Time Risk: What Investors Should Know about FinTech, High-Frequency Trading, and Flash Crashes. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
- ↑ Aldridge, Irene (2021). Big data science in finance. Marco Avellaneda. Hoboken, New Jersey. ISBN 978-1-119-60297-2. OCLC 1184122216.
- ↑ Copeland, CS (Jul–Aug 2017). "Data Driving Discovery" (PDF). Healthcare Journal of New Orleans: 22–27. Archived (PDF) from the original on 5 December 2019. Retrieved 5 December 2019.