تحلیل احساسات چند وجهی

تحلیل احساسات چند وجهی بعد جدیدی از تحلیل احساسات مبتنی بر متن است، که فراتر از تجزیه و تحلیل متون می‌رود و شامل بررسی سایر ابعاد مانند داده‌های صوتی و تصویری نیز می‌شود.^[۱] تحلیل احساسات چندوجهی، می‌تواند دو وجهی باشد که به معنی ترکیب دو مدالیته مختلف است، یا سه وجهی باشد که دربرگیرنده سه مدالیته است.^[۲] با وجود حجم گسترده داده‌های رسانه‌های اجتماعی که به شکل‌های مختلف از جمله ویدئو و تصویر به صورت آنلاین در دسترس هستند، تکنیک متعارف تحلیل احساسات مبتنی بر متن به مدل‌های پیچیده‌تر تحلیل احساسات چندوجهی تبدیل شده‌است.^[۳] این تکنولوژی می‌تواند در توسعه دستیاران مجازی،^[۴] تجزیه و تحلیل نقد فیلم‌های یوتیوب،^[۵] تجزیه و تحلیل ویدیوهای خبری، و تشخیص احساسات مانند نظارت بر افسردگی و زمینه‌های دیگر کاربرد داشته باشد.

مشابه تحلیل احساسات سنتی، یکی از اساسی‌ترین وظایف در تحلیل احساسات چندوجهی ، طبقه‌بندی احساسات است که احساسات مختلف را به دسته‌هایی مانند مثبت، منفی یا خنثی دسته‌بندی می‌کند. پیچیدگی تجزیه و تحلیل ویژگی‌های متنی، صوتی و بصری برای انجام چنین کاری مستلزم استفاده از تکنیک‌های ترکیبی مختلف، مانند سطح ویژگی، سطح تصمیم، و ترکیب هایبرید است.^[۳] عملکرد این تکنیک‌های ادغامی و الگوریتم‌های طبقه‌بندی، تحت‌تاثیر نوع ویژگی‌های متنی، صوتی و بصری به کار رفته در این بررسی است.^[۶]

ویژگی‌ها ویرایش

مهندسی ویژگی، که شامل انتخاب ویژگی‌هایی است که به الگوریتم‌های یادگیری ماشین داده می‌شوند، نقش کلیدی در عملکرد طبقه‌بندی احساسات بازی می‌کند.^[۶] در تحلیل احساسات چندوجهی، ترکیبی از ویژگی‌های متنی، صوتی و بصری مختلف به کار گرفته می‌شود.^[۳]

ویژگی‌های متنی ویرایش

مشابه تجزیه و تحلیل احساسات مرسوم مبتنی بر متن، برخی از متداول‌ترین ویژگی‌های متنی مورد استفاده در تحلیل احساسات چندوجهی، تک-گرم‌ها و ان-گرم‌ها هستند که اساساً دنباله‌ای از کلمات در یک سند متنی هستند.^[۷] این ویژگی‌ها با استفاده از مدل بسته کلمات یا مدل بسته مفاهیم اعمال می‌شوند که در آن کلمات یا مفاهیم به صورت بردارهایی در فضایی مناسب نمایش داده می‌شوند.^[۸]^[۹]

ویژگیهای صوتی ویرایش

عواطف و احساسات دارای خصوصیات آوایی و عروضی متفاوتی در ویژگی‌های صوتی هستند.^[۱۰] برخی از مهم‌ترین ویژگی‌های صوتی مورد استفاده در تجزیه و تحلیل احساسات چندوجهی عبارتند از ضرایب فرکانس مل (MFCC)، مرکز طیفی، شار طیفی، هیستوگرام ضربان، مجموع ضربان، قوی‌ترین ضرب، مدت زمان مکث، و گام.^[۳] OpenSMILE و Praat ابزارهای منبع باز پرطرفدار برای استخراج این ویژگی‌های صوتی هستند.

ویژگی‌های بصری ویرایش

یکی از مزایای اصلی تجزیه و تحلیل ویدئوها در مقایسه با تحلیل صرف متن، غنی بودن نشانه‌های احساسات در داده‌های بصری است.^[۱۱] ویژگی‌های بصری شامل حالات چهره است که در شناسایی احساسات و عواطف از اهمیت بالایی برخوردار است، زیرا کانال اصلی نمایش حالات ذهنی فعلی فرد است.^[۳] به‌طور خاص، لبخند به عنوان یکی از واضح‌ترین نشانه‌های بصری در تحلیل احساسات چندوجهی در نظر گرفته می‌شود.^[۸] OpenFace یک جعبه ابزار منبع باز برای تجزیه و تحلیل چهره است که برای استخراج و درک چنین ویژگی‌های بصری در دسترس است.^[۱۲]

تکنیک‌های ترکیبی ویرایش

برخلاف تحلیل احساسات سنتی مبتنی بر متن، در تحلیل احساسات چندوجهی تحت یک فرایند ادغام، داده‌های روش‌های مختلف (متنی، صوتی یا بصری) با هم ترکیب و تجزیه و تحلیل می‌شوند.^[۳] رویکردهای موجود برای ادغام داده‌ها در تحلیل احساسات چندوجهی را می‌توان به سه دسته اصلی گروه‌بندی کرد: سطح ویژگی، سطح تصمیم، و ترکیب هایبرید. عملکرد طبقه‌بندی احساسات بستگی به نوع تکنیک ترکیبی مورد استفاده دارد.^[۳]

ترکیب در سطح ویژگی ویرایش

ترکیب در سطح ویژگی (که گاهی اوقات به عنوان ادغام اولیه شناخته می‌شود) همه ویژگی‌ها را از هر مدالیته (متنی، صوتی یا بصری) جمع‌آوری می‌کند و همه آنها را در یک بردار ویژگی واحد قرار می‌دهد که در نهایت به یک الگوریتم طبقه‌بندی وارد می‌شود.^[۱۳] یکی از مشکلات در اجرای این تکنیک، ادغام ویژگی‌های ناهمگن است.^[۳]

ترکیب در سطح تصمیم ویرایش

ترکیب در سطح تصمیم (که گاهی اوقات به عنوان ادغام ثانویه شناخته می‌شود)، داده‌های هر مدالیته (متنی، صوتی یا بصری) را به‌طور مستقل به الگوریتم طبقه‌بندی مختص به خود می‌دهد و با ادغام هر نتیجه در یک بردار تصمیم واحد، نتایج طبقه‌بندی احساسات نهایی را به دست می‌آورد.^[۱۳] یکی از مزایای این تکنیک ترکیبی، این است که نیاز به ترکیب داده‌های ناهمگن را از بین می‌برد و هر مدالیته می‌تواند از مناسب‌ترین الگوریتم طبقه‌بندی خود استفاده کند.^[۳]

ترکیب هیبریدی ویرایش

ترکیب هیبریدی، ترکیبی از تکنیک‌های ترکیب در سطح ویژگی و سطح تصمیم است که از اطلاعات تکمیلی هر دو روش در طول فرایند طبقه‌بندی استفاده می‌کند.^[۵] این فرایند معمولاً شامل یک روش دو مرحله‌ای است که در مرحله اول، ابتدا بین دوتا از مدالیته‌ها، روش ترکیب در سطح ویژگی پیاده‌سازی می‌شود و سپس در مرحله دوم برای ادغام کردن نتیجه این ترکیب با مدالیته باقیمانده، بین نتایج این فرایند و مدالیتهٔ باقیمانده، عملیات ترکیب در سطح تصمیم اعمال می‌شود.^[۱۴]^[۱۵]

کاربردها ویرایش

مشابه تجزیه و تحلیل احساسات مبتنی بر متن، تجزیه و تحلیل احساسات چندوجهی را می‌توان در توسعه سیستم‌های توصیه‌گر در اشکال مختلف مانند تجزیه و تحلیل ویدیوهای تولید شده توسط کاربران در خصوص نقد فیلم^[۵] و نقد کلی محصولات،^[۱۶] به منظور پیش‌بینی احساسات مشتریان و متعاقباً توصیه محصولات یا خدمات، استفاده کرد.^[۱۷] تجزیه و تحلیل احساسات چندوجهی همچنین نقش مهمی در پیشرفت دستیاران مجازی از طریق استفاده از پردازش زبان طبیعی (NLP) و تکنیک‌های یادگیری ماشین ایفا می‌کند.^[۴] در حوزه بهداشت و درمان، تجزیه و تحلیل احساسات چندوجهی می‌تواند برای تشخیص برخی شرایط پزشکی مانند استرس، اضطراب یا افسردگی استفاده شود. تجزیه و تحلیل احساسات چندوجهی را می‌توان در درک احساسات موجود در برنامه‌های خبری ویدیویی نیز به کار برد، از آنجایی که خبرنگاران معمولاً به‌طور واضح احساسات خود را نشان نمی‌دهند و بیشتر خنثی هستند، به عنوان یک حوزه پیچیده و چالش‌برانگیز در نظر گرفته می‌شود.

منابع ویرایش

↑ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.^{^{[پیوند مرده]}}
↑ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ ^۳٫۶ ^۳٫۷ ^۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ ^۴٫۰ ^۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
↑ ^۵٫۰ ^۵٫۱ ^۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
↑ ^۶٫۰ ^۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
↑ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
↑ ^۸٫۰ ^۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
↑ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
↑ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
↑ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. {{cite journal}}: Cite journal requires |journal= (help)
↑ ^۱۳٫۰ ^۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
↑ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. {{cite journal}}: Cite journal requires |journal= (help)
↑ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
↑ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
↑ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.

[1] Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.^{^{[پیوند مرده]}}

[2] Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.

[s1-3] ۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ ^۳٫۶ ^۳٫۷ ^۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. {{cite journal}}: |hdl-access= requires |hdl= (help)

[s5-4] ۴٫۰ ^۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.

[s4-5] ۵٫۰ ^۵٫۱ ^۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.

[s7-6] ۶٫۰ ^۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.

[7] Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.

[s2-8] ۸٫۰ ^۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.

[9] Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041. {{cite journal}}: |hdl-access= requires |hdl= (help)

[10] Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.

[11] Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.

[12] "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. {{cite journal}}: Cite journal requires |journal= (help)

[s3-13] ۱۳٫۰ ^۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.

[14] Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. {{cite journal}}: Cite journal requires |journal= (help)

[15] Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.

[16] Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).

[17] Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]