تحلیل احساسات چند وجهی
تحلیل احساسات چند وجهی بعد جدیدی از تحلیل احساسات مبتنی بر متن است، که فراتر از تجزیه و تحلیل متون میرود و شامل بررسی سایر ابعاد مانند دادههای صوتی و تصویری نیز میشود.[۱] تحلیل احساسات چندوجهی، میتواند دو وجهی باشد که به معنی ترکیب دو مدالیته مختلف است، یا سه وجهی باشد که دربرگیرنده سه مدالیته است.[۲] با وجود حجم گسترده دادههای رسانههای اجتماعی که به شکلهای مختلف از جمله ویدئو و تصویر به صورت آنلاین در دسترس هستند، تکنیک متعارف تحلیل احساسات مبتنی بر متن به مدلهای پیچیدهتر تحلیل احساسات چندوجهی تبدیل شدهاست.[۳] این تکنولوژی میتواند در توسعه دستیاران مجازی،[۴] تجزیه و تحلیل نقد فیلمهای یوتیوب،[۵] تجزیه و تحلیل ویدیوهای خبری، و تشخیص احساسات مانند نظارت بر افسردگی و زمینههای دیگر کاربرد داشته باشد.
مشابه تحلیل احساسات سنتی، یکی از اساسیترین وظایف در تحلیل احساسات چندوجهی ، طبقهبندی احساسات است که احساسات مختلف را به دستههایی مانند مثبت، منفی یا خنثی دستهبندی میکند. پیچیدگی تجزیه و تحلیل ویژگیهای متنی، صوتی و بصری برای انجام چنین کاری مستلزم استفاده از تکنیکهای ترکیبی مختلف، مانند سطح ویژگی، سطح تصمیم، و ترکیب هایبرید است.[۳] عملکرد این تکنیکهای ادغامی و الگوریتمهای طبقهبندی، تحتتاثیر نوع ویژگیهای متنی، صوتی و بصری به کار رفته در این بررسی است.[۶]
ویژگیها ویرایش
مهندسی ویژگی، که شامل انتخاب ویژگیهایی است که به الگوریتمهای یادگیری ماشین داده میشوند، نقش کلیدی در عملکرد طبقهبندی احساسات بازی میکند.[۶] در تحلیل احساسات چندوجهی، ترکیبی از ویژگیهای متنی، صوتی و بصری مختلف به کار گرفته میشود.[۳]
ویژگیهای متنی ویرایش
مشابه تجزیه و تحلیل احساسات مرسوم مبتنی بر متن، برخی از متداولترین ویژگیهای متنی مورد استفاده در تحلیل احساسات چندوجهی، تک-گرمها و ان-گرمها هستند که اساساً دنبالهای از کلمات در یک سند متنی هستند.[۷] این ویژگیها با استفاده از مدل بسته کلمات یا مدل بسته مفاهیم اعمال میشوند که در آن کلمات یا مفاهیم به صورت بردارهایی در فضایی مناسب نمایش داده میشوند.[۸][۹]
ویژگیهای صوتی ویرایش
عواطف و احساسات دارای خصوصیات آوایی و عروضی متفاوتی در ویژگیهای صوتی هستند.[۱۰] برخی از مهمترین ویژگیهای صوتی مورد استفاده در تجزیه و تحلیل احساسات چندوجهی عبارتند از ضرایب فرکانس مل (MFCC)، مرکز طیفی، شار طیفی، هیستوگرام ضربان، مجموع ضربان، قویترین ضرب، مدت زمان مکث، و گام.[۳] OpenSMILE و Praat ابزارهای منبع باز پرطرفدار برای استخراج این ویژگیهای صوتی هستند.
ویژگیهای بصری ویرایش
یکی از مزایای اصلی تجزیه و تحلیل ویدئوها در مقایسه با تحلیل صرف متن، غنی بودن نشانههای احساسات در دادههای بصری است.[۱۱] ویژگیهای بصری شامل حالات چهره است که در شناسایی احساسات و عواطف از اهمیت بالایی برخوردار است، زیرا کانال اصلی نمایش حالات ذهنی فعلی فرد است.[۳] بهطور خاص، لبخند به عنوان یکی از واضحترین نشانههای بصری در تحلیل احساسات چندوجهی در نظر گرفته میشود.[۸] OpenFace یک جعبه ابزار منبع باز برای تجزیه و تحلیل چهره است که برای استخراج و درک چنین ویژگیهای بصری در دسترس است.[۱۲]
تکنیکهای ترکیبی ویرایش
برخلاف تحلیل احساسات سنتی مبتنی بر متن، در تحلیل احساسات چندوجهی تحت یک فرایند ادغام، دادههای روشهای مختلف (متنی، صوتی یا بصری) با هم ترکیب و تجزیه و تحلیل میشوند.[۳] رویکردهای موجود برای ادغام دادهها در تحلیل احساسات چندوجهی را میتوان به سه دسته اصلی گروهبندی کرد: سطح ویژگی، سطح تصمیم، و ترکیب هایبرید. عملکرد طبقهبندی احساسات بستگی به نوع تکنیک ترکیبی مورد استفاده دارد.[۳]
ترکیب در سطح ویژگی ویرایش
ترکیب در سطح ویژگی (که گاهی اوقات به عنوان ادغام اولیه شناخته میشود) همه ویژگیها را از هر مدالیته (متنی، صوتی یا بصری) جمعآوری میکند و همه آنها را در یک بردار ویژگی واحد قرار میدهد که در نهایت به یک الگوریتم طبقهبندی وارد میشود.[۱۳] یکی از مشکلات در اجرای این تکنیک، ادغام ویژگیهای ناهمگن است.[۳]
ترکیب در سطح تصمیم ویرایش
ترکیب در سطح تصمیم (که گاهی اوقات به عنوان ادغام ثانویه شناخته میشود)، دادههای هر مدالیته (متنی، صوتی یا بصری) را بهطور مستقل به الگوریتم طبقهبندی مختص به خود میدهد و با ادغام هر نتیجه در یک بردار تصمیم واحد، نتایج طبقهبندی احساسات نهایی را به دست میآورد.[۱۳] یکی از مزایای این تکنیک ترکیبی، این است که نیاز به ترکیب دادههای ناهمگن را از بین میبرد و هر مدالیته میتواند از مناسبترین الگوریتم طبقهبندی خود استفاده کند.[۳]
ترکیب هیبریدی ویرایش
ترکیب هیبریدی، ترکیبی از تکنیکهای ترکیب در سطح ویژگی و سطح تصمیم است که از اطلاعات تکمیلی هر دو روش در طول فرایند طبقهبندی استفاده میکند.[۵] این فرایند معمولاً شامل یک روش دو مرحلهای است که در مرحله اول، ابتدا بین دوتا از مدالیتهها، روش ترکیب در سطح ویژگی پیادهسازی میشود و سپس در مرحله دوم برای ادغام کردن نتیجه این ترکیب با مدالیته باقیمانده، بین نتایج این فرایند و مدالیتهٔ باقیمانده، عملیات ترکیب در سطح تصمیم اعمال میشود.[۱۴][۱۵]
کاربردها ویرایش
مشابه تجزیه و تحلیل احساسات مبتنی بر متن، تجزیه و تحلیل احساسات چندوجهی را میتوان در توسعه سیستمهای توصیهگر در اشکال مختلف مانند تجزیه و تحلیل ویدیوهای تولید شده توسط کاربران در خصوص نقد فیلم[۵] و نقد کلی محصولات،[۱۶] به منظور پیشبینی احساسات مشتریان و متعاقباً توصیه محصولات یا خدمات، استفاده کرد.[۱۷] تجزیه و تحلیل احساسات چندوجهی همچنین نقش مهمی در پیشرفت دستیاران مجازی از طریق استفاده از پردازش زبان طبیعی (NLP) و تکنیکهای یادگیری ماشین ایفا میکند.[۴] در حوزه بهداشت و درمان، تجزیه و تحلیل احساسات چندوجهی میتواند برای تشخیص برخی شرایط پزشکی مانند استرس، اضطراب یا افسردگی استفاده شود. تجزیه و تحلیل احساسات چندوجهی را میتوان در درک احساسات موجود در برنامههای خبری ویدیویی نیز به کار برد، از آنجایی که خبرنگاران معمولاً بهطور واضح احساسات خود را نشان نمیدهند و بیشتر خنثی هستند، به عنوان یک حوزه پیچیده و چالشبرانگیز در نظر گرفته میشود.
منابع ویرایش
- ↑ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.[پیوند مرده]
- ↑ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ ۳٫۷ ۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ ۴٫۰ ۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
- ↑ ۵٫۰ ۵٫۱ ۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
- ↑ ۶٫۰ ۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
- ↑ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
- ↑ ۸٫۰ ۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
- ↑ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
- ↑ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
- ↑ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ ۱۳٫۰ ۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
- ↑ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
- ↑ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
- ↑ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.