داده‌افزایی (افزایش داده)، در داده‌کاوی، به سازوکارهایی برای افزایش شمارِ داده‌ها گفته می‌شود. داده‌های تازه با ساختن رونوشت‌ها و نمونه‌هایی از داده‌های کنونی (دردسترس)، یا ساخت داده‌هایی با الگوگرفتن از داده‌های کنونی (کمی ناهمسان)، ساخته می‌شوند.[۱] شیوه‌ی داده‌افزایی را می‌توان یک رگولارایزر (همترازکننده) دانست، که راه‌کاری است برای چالشِ بیش‌برازش در زمان آموزش یک الگوی (مدل) یادگیری ماشین.

تقویت داده برای کلاس بندی تصاویر ویرایش

دگرسازی تصاویر ویرایش

تغییرات هندسی، چرخش، اصلاح رنگ، برش، چرخش، تزریق نویز و پاک کردن تصادفی برای تقویت تصویر در یادگیری عمیق استفاده می‌شود.[۱]

 
کتابخانه Augmentor تبدیل‌های الاستیک را به منظور تولید تصاویر مصنوعی جدید از مجموعه داده به منظور کاهش مشکلات کمبود معرفی می‌کند.

معرفی تصاویر مصنوعی جدید ویرایش

اگر با مشکل کمبود داده مواجه شویم، تکنیک‌های ساده و در عین حال مؤثر مانند تبدیل‌ها ممکن است راه‌حل محدودی داشته باشند. اگر یک مجموعه داده خیلی کوچک است، یک تصویر تبدیل شده از طریق چرخش و آینه سازی و غیره تنظیم می‌شود. ممکن است هنوز برای یک مشکل معین خیلی کوچک باشد. راه حل دیگر منبع یابی تصاویر کاملاً جدید و مصنوعی از طریق تکنیک‌های مختلف است، به عنوان مثال استفاده از شبکه‌های زایای دشمنگونه برای ایجاد تصاویر مصنوعی جدید برای تقویت داده‌ها.[۱] علاوه بر این، الگوریتم‌های تشخیص تصویر هنگام انتقال از تصاویر مصنوعی تولید شده توسط Unity Game Engine[۲] بهبود می‌یابند؛ یعنی برای بهبود یادگیری داده‌های دنیای واقعی با تقویت فرایند آموزش با تصاویر رندر شده از محیط‌های مجازی.

افزایش داده برای پردازش سیگنال ویرایش

سیگنال‌های بیولوژیکی ویرایش

تقویت داده‌های مصنوعی برای طبقه‌بندی یادگیری ماشین از اهمیت بالایی برخوردار است، به ویژه برای داده‌های بیولوژیکی، که تمایل به ابعاد بالا و کمیاب دارند. کاربردهای کنترل و تقویت رباتیک در افراد ناتوان و توانا هنوز عمدتاً بر تجزیه و تحلیل‌های موضوعی خاص متکی است. کمبود داده در مشکلات پردازش سیگنال، مانند سیگنال‌های نوار عصب و عضله بیماری پارکینسون، که به سختی انجام می‌شود، قابل توجه است. همچنین که می‌توان از یک شبکه‌های زایای دشمنگونه (به ویژه DCGAN) برای انجام انتقال سبک به منظور تولید سیگنال‌های الکترومیوگرافی مصنوعی استفاده کرد که مطابق با سیگنال‌های نشان داده شده توسط مبتلایان به بیماری پارکینسون است.[۳]

 
مقایسه سیگنال‌های EEG تولید شده توسط GPT-2 (سمت چپ) و امواج مغزی واقعی انسان (راست) در کلاس‌های حالت ذهنی "تمرکز"، "آرام" و "خنثی"

این رویکردها در نوار مغزی (امواج مغزی) نیز مهم هستند. وانگ و همکاران با بررسی ایده استفاده از شبکه‌های عصبی کانولوشنال عمیق برای تشخیص احساسات مبتنی بر EEG، نتایج نشان می‌دهد که با استفاده از تقویت داده‌ها، تشخیص احساسات بهبود می‌یابد.[۴]

همچنین اشاره شده‌است که مدل GPT-2 OpenAI قادر به یادگیری و تولید سیگنال‌های بیولوژیکی مصنوعی مانند EEG و EMG است.[۵] در این مطالعه، اشاره شد که تشخیص از طریق تقویت داده‌ها بهبود یافته‌است. همچنین اشاره شد که مدل‌های یادگیری ماشین آماری آموزش‌دیده در حوزه مصنوعی می‌توانند داده‌های انسانی را طبقه‌بندی کنند و بالعکس. در تصویر، مقایسه ای با چند نمونه از EEG تولید شده توسط مدل GPT-2 و مغز انسان ارائه شده‌است.

یک رویکرد رایج، تولید سیگنال‌های مصنوعی با تنظیم مجدد اجزای داده‌های واقعی است. Lotte[۶] روشی برای «تولید آزمایش مصنوعی بر اساس قیاس» پیشنهاد کرد که در آن سه مثال داده x1, x2 ,x3 مثال‌هایی ارائه می‌کند و یک x_synthetic شکل می‌گیرد که به x3 چه x2 به x1 است. یک تبدیل به x1 اعمال می‌شود تا شبیه‌تر به x2 شود، سپس همان تبدیل برای x3 اعمال می‌شود که x_syntetic را تولید می‌کند.

تحقیقات کنونی نشان می‌دهد که می‌توان تأثیر زیادی از تکنیک‌های نسبتاً ساده به دست آورد. به عنوان مثال، فریر[۷] مشاهده کرد که وارد کردن نویز به داده‌های جمع‌آوری شده برای تشکیل نقاط داده اضافی، توانایی یادگیری چندین مدل را بهبود می‌بخشد که در غیر این صورت عملکرد نسبتاً ضعیفی داشتند. سینگانوس و همکاران.[۸] رویکردهای تاب‌شدن بزرگی، تجزیه موجک و مدل‌های EMG سطح مصنوعی (رویکردهای مولد) را برای تشخیص ژست دست مورد مطالعه قرار داد و زمانی که داده‌های تقویت‌شده در طول آموزش معرفی شد، عملکرد طبقه‌بندی را تا +۱۶٪ افزایش داد.

اخیراً، مطالعات تقویت داده‌ها شروع به تمرکز بر حوزه یادگیری عمیق کرده‌اند، به‌ویژه بر توانایی مدل‌های مولد برای ایجاد داده‌های مصنوعی که سپس در طی فرایند آموزش مدل طبقه‌بندی معرفی می‌شوند. در سال ۲۰۱۸، لو و همکاران.[۹] مشاهده کرد که داده‌های مفید سیگنال EEG می‌تواند توسط شبکه‌های متخاصم مولد شرطی Wasserstein (GANs) تولید شود که سپس به مجموعه آموزشی در یک چارچوب یادگیری کلاسیک آزمون قطار معرفی شد. نویسندگان دریافتند که عملکرد طبقه‌بندی با معرفی چنین تکنیک‌هایی بهبود یافته‌است.

تقویت داده برای تشخیص گفتار ویرایش

اشاره شده‌است که تولید داده مصنوعی از MFCCهای گفتاری می‌تواند تشخیص یک گوینده از گفته‌های آنها را از طریق انتقال یادگیری از داده‌های مصنوعی که از طریق یک شبکه عصبی بازگشتی در سطح کاراکتر (RNN) ایجاد شده‌است، بهبود بخشد.[۱۰]

افزایش داده ها بر اساس دستکاری های اولیه تصویر ویرایش

چرخاندن ویرایش

چرخش محور افقی بسیار رایج‌تر از چرخاندن محور عمودی است. این تقویت یکی از ساده‌ترین‌ها برای پیاده سازی است و در مجموعه داده‌هایی مانند CIFAR-10 و ImageNet مفید است. این یک تبدیل نگهدارنده برچسب در مجموعه داده‌های مربوط به تشخیص متن، مانند MNIST یا SVHN نیست.[۱]

فضای رنگی ویرایش

داده های تصویر دیجیتال معمولاً به عنوان تانسور ابعاد (ارتفاع × عرض × کانال های رنگ) کدگذاری می شوند. انجام افزایش در فضای کانال های رنگی استراتژی دیگری است که اجرای آن بسیار کاربردی است. تقویت‌های رنگی بسیار ساده شامل جداسازی یک کانال رنگی مانند R، G یا B می‌شود. یک تصویر را می‌توان با جدا کردن آن ماتریس و اضافه کردن 2 ماتریس صفر از کانال‌های رنگی به سرعت به نمایش آن در یک کانال رنگی تبدیل کرد. علاوه بر این، مقادیر RGB را می توان به راحتی با عملیات ماتریسی ساده برای افزایش یا کاهش روشنایی تصویر دستکاری کرد. تقویت‌های رنگی پیشرفته‌تر از استخراج یک هیستوگرام رنگی برای توصیف تصویر حاصل می‌شوند.[۱]

برش ویرایش

برش تصاویر را می توان به عنوان یک مرحله پردازش عملی برای داده های تصویر با ابعاد مختلف ارتفاع و عرض با برش دادن یک ناحیه مرکزی از هر تصویر استفاده کرد. از برش تصادفی نیز می توان برای ارائه اثری مشابه ترجمه‌ها استفاده کرد. تفاوت بین برش تصادفی و ترجمه این است که برش اندازه ورودی را کاهش می دهد، مانند (256, 256) → (224، 224)، در حالی که ترجمه‌ها ابعاد فضایی تصویر را حفظ می‌کنند. بسته به آستانه کاهش انتخاب شده، این تغییر ممکن است حفظ کننده برچسب نباشد.[۱]

چرخش ویرایش

این روش با چرخش تصویر به راست یا چپ بر روی محوری بین 1 تا 359 درجه انجام می شود. ایمنی افزایش چرخش به شدت توسط پارامتر درجه چرخش تعیین می شود. چرخش های جزئی، مانند بین 1 و 20 یا - 1 تا - 20 می تواند برای کارهای تشخیص رقم مانند MNIST مفید باشد، اما با افزایش درجه چرخش، برچسب داده ها دیگر پس از تبدیل حفظ نمی شود.[۱]

ترجمه ویرایش

جابجایی تصاویر به چپ، راست، بالا یا پایین می تواند برای جلوگیری از سوگیری موقعیتی در داده ها مفید باشد. به عنوان مثال، اگر تمام تصاویر در یک مجموعه داده در مرکز قرار گیرند، که در مجموعه داده‌های تشخیص چهره رایج است، این نیاز به آزمایش مدل بر روی تصاویر کاملاً مرکزی دارد. همانطور که تصویر اصلی در یک جهت ترجمه می شود، فضای باقی مانده را می توان با یک مقدار ثابت مانند ۰ یا ۲۵۵ پر کرد، یا می توان آن را با نویز تصادفی یا گاوسی پر کرد. این لایه ابعاد فضایی تصویر را پس از تقویت حفظ می‌کند.

تزریق نویز ویرایش

تزریق نویز ماتریسی از مقادیر تصادفی را که معمولاً از توزیع گاوسی گرفته می‌شود، تزریق می‌کند. افزودن نویز به تصاویر می تواند به CNNها کمک کند تا ویژگی‌های قوی‌تری را بیاموزند. تبدیل‌های هندسی راه‌حل‌های بسیار خوبی برای بایاس‌های موقعیتی موجود در داده‌های آموزشی هستند. منابع بالقوه زیادی برای سوگیری وجود دارد که می‌تواند توزیع داده‌های آموزشی را از داده‌های آزمایشی جدا کند.[۱]


دگرگونی‌های فضای رنگی ویرایش

داده های تصویر در 3 ماتریس انباشته، هر کدام به اندازه ارتفاع × عرض کدگذاری می‌شوند. این ماتریس‌ها مقادیر پیکسلی را برای یک مقدار رنگ RGB نشان می‌دهند. سوگیری‌های نور یکی از رایج‌ترین چالش‌ها برای مشکلات تشخیص تصویر هستند. بنابراین، اثربخشی تبدیل‌های فضای رنگی، که به عنوان تبدیل‌های فتومتریک نیز شناخته می‌شوند، برای مفهوم‌سازی نسبتاً شهودی است. یک راه حل سریع برای تصاویر بیش از حد روشن یا تاریک، کاهش یا افزایش مقادیر پیکسل با یک مقدار ثابت است. یکی دیگر از دستکاری‌های سریع فضای رنگی این است که ماتریس‌های رنگی RGB جداگانه را به هم متصل کنید. تبدیل دیگر شامل محدود کردن مقادیر پیکسل به یک مقدار حداقل یا حداکثر است.[۱]

فیلترهای کرنل ویرایش

فیلترهای کرنل یک تکنیک بسیار محبوب در پردازش تصویر برای شفاف کردن و محو کردن تصاویر هستند. این فیلترها با لغزش یک ماتریس n × n روی یک تصویر با یک فیلتر تاری گاوسی کار می کنند که منجر به یک تصویر تارتر می شود یا یک فیلتر لبه عمودی یا افقی با کنتراست بالا که منجر به تصویر واضح‌تر در امتداد لبه‌ها می‌شود. تار کردن تصاویر برای افزایش داده‌ها می‌تواند منجر به مقاومت بالاتر در برابر تاری حرکت در طول آزمایش شود. علاوه بر این، شارپ کردن تصاویر برای افزایش داده‌ها می‌تواند منجر به کپسوله کردن جزئیات بیشتر در مورد اشیاء مورد علاقه شود. یکی از معایب این تکنیک این است که بسیار شبیه به مکانیسم‌های داخلی CNN است. CNN ها دارای کرنل‌های پارامتریک هستند که روش بهینه برای نمایش لایه به لایه تصاویر را یاد می‌گیرند.[۱]

مخلوط کردن تصاویر ویرایش

اختلاط تصاویر با هم با میانگین‌گیری مقادیر پیکسل‌شان، یک رویکرد بسیار غیرمستقیم برای افزایش داده است. تصاویری که با انجام این کار تولید می شوند، برای یک ناظر انسانی تبدیل مفیدی به نظر نمی‌رسند. یک عیب آشکار این تکنیک این است که از دیدگاه انسانی منطقی نیست. درک یا توضیح افزایش عملکرد حاصل از مخلوط کردن تصاویر بسیار دشوار است. یکی از توضیح های ممکن برای این موضوع این است که افزایش اندازه مجموعه داده ها منجر به نمایش قوی‌تر ویژگی های سطح پایین مانند خطوط و لبه‌ها می‌شود.[۱]

پاک کردن تصادفی ویرایش

این تکنیک به طور خاص برای مبارزه با چالش های تشخیص تصویر به دلیل انسداد طراحی شده است. انسداد به زمانی گفته می شود که برخی از قسمت های جسم نامشخص باشد. پاک کردن تصادفی با وادار کردن مدل به یادگیری ویژگی های توصیفی در مورد یک تصویر و جلوگیری از تطبیق بیش از حد آن به یک ویژگی بصری خاص در تصویر، این کار را متوقف می کند. جدا از چالش بصری انسداد، پاک کردن تصادفی یک تکنیک امیدوارکننده برای تضمین توجه شبکه به کل تصویر است، نه فقط به زیر مجموعه ای از آن.[۱]


افزایش داده ها بر اساس یادگیری عمیق ویرایش

افزایش فضای ویژگی ویرایش

شبکه‌های عصبی در نگاشت ورودی‌های با ابعاد بالا به نمایش‌های با ابعاد پایین‌تر بسیار قدرتمند هستند. این شبکه‌ها می‌توانند تصاویر را به کلاس های باینری یا n × 1 بردار در لایه‌های مسطح نگاشت کنند. پردازش متوالی شبکه‌های عصبی را می‌توان به گونه‌ای دستکاری کرد که نمایش‌های میانی را بتوان از شبکه به عنوان یک کل جدا کرد. استفاده از خودرمزگذارها به ویژه برای انجام افزایش فضای ویژگی روی داده‌ها مفید است. خودرمزگذارها با داشتن نیمی از شبکه، رمزگذار، کار می‌کنند، تصاویر را به صورت نمایش‌های برداری کم بعدی نگاشت می کنند، به طوری که نیمه دیگر شبکه، رمزگشا، می تواند این بردارها را به تصویر اصلی بازسازی کند. این نمایش کدگذاری شده برای افزایش فضای ویژگی استفاده می شود.[۱]


جستارهای وابسته ویرایش

منابع ویرایش

  1. ۱٫۰۰ ۱٫۰۱ ۱٫۰۲ ۱٫۰۳ ۱٫۰۴ ۱٫۰۵ ۱٫۰۶ ۱٫۰۷ ۱٫۰۸ ۱٫۰۹ ۱٫۱۰ ۱٫۱۱ ۱٫۱۲ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). "A survey on Image Data Augmentation for Deep Learning". Mathematics and Computers in Simulation. springer. 6: 60. doi:10.1186/s40537-019-0197-0.
  2. Bird, Jordan J; Faria, Diego R; Ekart, Aniko; Ayrosa, Pedro PS (2020-08-30). From simulation to reality: CNN transfer learning for scene classification. 2020 IEEE 10th International Conference on Intelligent Systems (IS). Varna, Bulgaria: IEEE. pp. 619–625
  3. Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755. PMID 32375217
  4. Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755. PMID 32375217
  5. Bird, Jordan J. ; Pritchard, Michael George; Fratini, Antonio; Ekart, Aniko; Faria, Diego (2021). "Synthetic Biological Signals Machine-generated by GPT-2 improve the Classification of EEG and EMG through Data Augmentation" (PDF). IEEE Robotics and Automation Letters. 6 (2): 3498–3504.
  6. Lotte, Fabien (2015). "Signal Processing Approaches to Minimize or Suppress Calibration Time in Oscillatory Activity-Based Brain–Computer Interfaces". Proceedings of the IEEE. 103 (6): 871–890. doi:10.1109/JPROC.2015.2404941. ISSN 0018-9219. S2CID 22472204.
  7. Freer, Daniel; Yang, Guang-Zhong (2020). "Data augmentation for self-paced motor imagery classification with C-LSTM". Journal of Neural Engineering. 17 (1): 016041. Bibcode:2020JNEng..17a6041F. doi:10.1088/1741-2552/ab57c0. hdl:10044/1/75376. ISSN 1741-2552. PMID 31726440.
  8. Tsinganos, Panagiotis; Cornelis, Bruno; Cornelis, Jan; Jansen, Bart; Skodras, Athanassios (2020). "Data Augmentation of Surface Electromyography for Hand Gesture Recognition". Sensors. 20(17): 4892. doi:10.3390/s20174892. ISSN 1424-8220. PMC 7506981. PMID 32872508.
  9. Luo, Yun; Lu, Bao-Liang (2018). "EEG Data Augmentation for Emotion Recognition Using a Conditional Wasserstein GAN". 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual International Conference. 2018. pp. 2535–2538. doi:10.1109/EMBC.2018.8512865. ISBN 978-1-5386-3646-6. PMID 30440924. S2CID 53105445.
  10. Bird, Jordan J. ; Faria, Diego R. ; Premebida, Cristiano; Ekart, Aniko; Ayrosa, Pedro P. S. (2020). "Overcoming Data Scarcity in Speaker Identification: Dataset Augmentation with Synthetic MFCCs via Character-level RNN". 2020 IEEE International Conference on Autonomous Robot Systems and Competitions (ICARSC). pp. 146–151. doi:10.1109/ICARSC49921.2020.9096166. ISBN 978-1-7281-7078-7. S2CID 218832459.