هوش مصنوعی انسان ها را در تشخیص احساسات صوتی مطابقت می دهد _اخبار روانشناسی جزیره ذهن

خلاصه: مدل‌های یادگیری ماشینی (ML) می‌توانند با دقت احساسات را از کلیپ‌های صوتی مختصر شناسایی کنند و به سطحی از دقت قابل مقایسه با انسان‌ها دست یابند. با تجزیه و تحلیل جملات بی معنی برای حذف تأثیر زبان و محتوا، این مطالعه نشان داد که شبکه های عصبی عمیق (DNN) و یک مدل ترکیبی (C-DNN) به ویژه در تشخیص احساساتی مانند شادی، خشم، غم و ترس از کلیپ ها موثر هستند. به کوتاهی 1.5 ثانیه

این پیشرفت، پتانسیل ایجاد سیستم هایی را نشان می دهد که می توانند بازخورد فوری در مورد حالات عاطفی در کاربردهای مختلف، از درمان گرفته تا فناوری ارتباطات، ارائه دهند. با این حال، این مطالعه محدودیت‌هایی را نیز تأیید می‌کند، از جمله استفاده از جملات بازیگر و تحقیقات بیشتر در مورد مدت زمان کلیپ صوتی برای تشخیص بهینه احساسات را پیشنهاد می‌کند.

حقایق کلیدی:

  1. مدل‌های ML در مقابل تشخیص احساسات انسانی: مدل‌های ML، به‌ویژه DNN و یک مدل ترکیبی، می‌توانند احساسات را از کلیپ‌های صوتی با دقتی مشابه انسان شناسایی کنند و این باور سنتی را که تشخیص احساسات صرفاً یک توانایی انسانی است، به چالش می‌کشد.
  2. کلیپ های صوتی کوتاه برای تشخیص احساسات: این مطالعه بر روی کلیپ‌های صوتی 1.5 ثانیه‌ای متمرکز شد و نشان داد که این زمان برای انسان‌ها و ماشین‌ها کافی است تا به طور دقیق ته‌رنگ‌های احساسی را تشخیص دهند.
  3. پتانسیل برای کاربردهای دنیای واقعی: این یافته‌ها فرصت‌هایی را برای توسعه فناوری می‌گشاید که می‌تواند نشانه‌های احساسی را در زمان واقعی تفسیر کند، و پیشرفت‌های امیدوارکننده‌ای در زمینه‌هایی که نیاز به درک هیجانی ظریف دارند.

منبع: مرزها

کلمات برای بیان خود مهم هستند. با این حال، آنچه ما نمی گوییم، ممکن است حتی در انتقال احساسات مؤثرتر باشد. انسان‌ها اغلب می‌توانند از طریق نشانه‌های غیرکلامی که در صدای ما تعبیه شده است، احساس اطرافیانشان را بگویند.

اکنون، محققان آلمانی می‌خواستند دریابند که آیا ابزارهای فنی نیز می‌توانند به‌طور دقیق ته‌رنگ‌های احساسی در قطعات ضبط‌شده صدا را پیش‌بینی کنند. برای انجام این کار، آنها دقت سه مدل ML را برای تشخیص احساسات مختلف در صدا مقایسه کردند.

نتایج آنها در مرزها در روانشناسی.

این یک زن را در حال صحبت نشان می دهد.
یافته‌های حاضر همچنین نشان می‌دهد که امکان توسعه سیستم‌هایی وجود دارد که می‌توانند فوراً نشانه‌های احساسی را برای ارائه بازخورد فوری و شهودی در طیف گسترده‌ای از موقعیت‌ها تفسیر کنند. اعتبار: اخبار علوم اعصاب

هانس دیمرلینگ، نویسنده اول مقاله، محقق مرکز روانشناسی طول عمر در موسسه توسعه انسانی ماکس پلانک، گفت: «در اینجا ما نشان می‌دهیم که یادگیری ماشینی می‌تواند برای تشخیص احساسات از کلیپ‌های صوتی به کوتاه‌مدت 1.5 ثانیه استفاده شود. مدل‌های ما در دسته‌بندی جملات بی‌معنی با رنگ‌آمیزی احساسی که توسط بازیگران گفته می‌شود، به دقتی مشابه انسان‌ها دست یافتند.

شنیدن احساس ما

محققان جملات بی معنی را از دو مجموعه داده -یکی کانادایی، دیگری آلمانی- ترسیم کردند که به آنها اجازه داد تا بررسی کنند که آیا مدل های ML می توانند احساسات را بدون توجه به زبان، تفاوت های فرهنگی و محتوای معنایی به طور دقیق تشخیص دهند.

طول هر کلیپ به 1.5 ثانیه کوتاه شد، زیرا این مدت زمان نیاز است که انسان ها احساسات را در گفتار تشخیص دهند. همچنین کوتاه‌ترین طول صوتی ممکن است که در آن می‌توان از همپوشانی احساسات جلوگیری کرد. عواطف شامل شادی، خشم، غم، ترس، انزجار و خنثی بود.

بر اساس داده‌های آموزشی، محققان مدل‌های ML را تولید کردند که به یکی از سه روش کار می‌کرد: شبکه‌های عصبی عمیق (DNN) مانند فیلترهای پیچیده‌ای هستند که اجزای صدا مانند فرکانس یا زیر و بم را تجزیه و تحلیل می‌کنند – برای مثال زمانی که صدای بلندتر به دلیل عصبانیت گوینده است. احساسات زیربنایی را شناسایی کنید

شبکه‌های عصبی کانولوشنال (CNN) الگوهایی را در بازنمایی بصری متن‌های موسیقی اسکن می‌کنند، مانند شناسایی احساسات از ریتم و بافت یک صدا. مدل ترکیبی (C-DNN) هر دو تکنیک را ادغام می‌کند و از طیف‌نگار صوتی و بصری آن برای پیش‌بینی احساسات استفاده می‌کند. سپس مدل‌ها برای اثربخشی روی هر دو مجموعه داده آزمایش شدند.

دیمرلینگ گفت: «ما دریافتیم که DNN و C-DNN به دقت بهتری نسبت به استفاده از طیف‌نگارها در CNN دست می‌یابند.

صرف نظر از مدل، طبقه بندی احساسات با احتمال بالاتری نسبت به حدس زدن درست بود و با دقت انسان ها قابل مقایسه بود.

به خوبی هر انسانی

دیمرلینگ توضیح داد: «ما می‌خواستیم مدل‌های خود را در یک زمینه واقع‌بینانه قرار دهیم و از مهارت‌های پیش‌بینی انسانی به عنوان معیار استفاده کنیم.

«اگر مدل‌ها از انسان‌ها بهتر عمل می‌کردند، می‌توانست به این معنی باشد که ممکن است الگوهایی وجود داشته باشند که توسط ما قابل تشخیص نباشند.» به گفته محققان، این واقعیت که انسان ها و مدل های آموزش ندیده به طور مشابه عمل می کنند ممکن است به این معنی باشد که هر دو به الگوهای تشخیصی شبیه هستند.

یافته‌های حاضر همچنین نشان می‌دهد که امکان توسعه سیستم‌هایی وجود دارد که می‌توانند فوراً نشانه‌های احساسی را برای ارائه بازخورد فوری و شهودی در طیف گسترده‌ای از موقعیت‌ها تفسیر کنند. این می‌تواند به کاربردهای مقیاس‌پذیر و مقرون‌به‌صرفه در حوزه‌های مختلف منجر شود، جایی که درک زمینه احساسی بسیار مهم است، مانند درمان و فناوری ارتباطات بین‌فردی.

محققان همچنین به برخی محدودیت‌ها در مطالعه خود اشاره کردند، برای مثال، اینکه جملات نمونه بازیگر ممکن است طیف کاملی از احساسات واقعی و خودانگیخته را منتقل نکنند. آنها همچنین گفتند که کار آینده باید بخش‌های صوتی را که بیشتر یا کوتاه‌تر از 1.5 ثانیه طول می‌کشند بررسی کند تا مشخص شود کدام مدت زمان برای تشخیص احساسات بهینه است.

در مورد این خبر تحقیق هوش مصنوعی و احساسات

نویسنده: دبورا پیرچنر
منبع: مرزها
مخاطب: دبورا پیرچنر – مرزها
منبع: این تصویر به Neuroscience News اعتبار داده شده است

تحقیق اصلی: دسترسی آزاد.
پیاده‌سازی تکنیک‌های یادگیری ماشین برای پیش‌بینی مستمر احساسات از ضبط‌های صوتی یکنواخت تقسیم‌بندی شدهتوسط هانس دیمرلینگ و همکاران. مرزها در روانشناسی


خلاصه

پیاده‌سازی تکنیک‌های یادگیری ماشین برای پیش‌بینی مستمر احساسات از ضبط‌های صوتی یکنواخت تقسیم‌بندی شده

معرفی: تشخیص احساسی از ضبط‌های صوتی، زمینه‌ای است که به سرعت در حال پیشرفت است و پیامدهای مهمی برای هوش مصنوعی و تعامل انسان و رایانه دارد. این مطالعه یک روش جدید برای تشخیص احساسات از نمونه‌های صوتی کوتاه 1.5 ثانیه‌ای با هدف بهبود دقت و کارایی در فناوری‌های تشخیص احساسات معرفی می‌کند.

مواد و روش ها: ما از 1510 نمونه صوتی منحصر به فرد از دو پایگاه داده به زبان آلمانی و انگلیسی برای آموزش مدل های خود استفاده کردیم. ما ویژگی‌های مختلفی را برای پیش‌بینی احساسات استخراج کردیم، از شبکه‌های عصبی عمیق (DNN) برای تحلیل ویژگی‌های عمومی، شبکه‌های عصبی کانولوشنال (CNN) برای تجزیه و تحلیل طیف‌نگاری، و یک مدل ترکیبی که هر دو رویکرد را ترکیب می‌کند (C-DNN) استخراج کردیم. این مطالعه به چالش‌های مرتبط با ناهمگونی مجموعه داده‌ها، تفاوت‌های زبانی و پیچیدگی‌های برش نمونه صوتی پرداخت.

نتایج: مدل‌های ما دقتی را نشان دادند که به طور قابل‌توجهی از حدس‌زنی تصادفی پیشی گرفت و با معیارهای ارزیابی انسانی همسو بود. این نشان دهنده اثربخشی رویکرد ما در تشخیص حالات عاطفی از روی کلیپ های صوتی مختصر است.

بحث: با وجود چالش‌های یکپارچه‌سازی مجموعه‌های داده متنوع و مدیریت نمونه‌های صوتی کوتاه، یافته‌های ما پتانسیل قابل‌توجهی را برای این روش در تشخیص احساسات در زمان واقعی از گفتار مداوم نشان می‌دهد. این می تواند به بهبود هوش هیجانی هوش مصنوعی و کاربردهای آن در زمینه های مختلف کمک کند.

https://neurosciencenews.com/ai-voice-emotion-25785/

ممکنه براتون جالب باشه که...

پست های محبوب

دیدگاهتان را بنویسید