view in publisher's site

Neural network based feature transformation for emotion independent speaker identification

In this paper we are proposing neural network based feature transformation framework for developing emotion independent speaker identification system. Most of the present speaker recognition systems may not perform well during emotional environments. In real life, humans extensively express emotions during conversations for effectively conveying the messages. Therefore, in this work we propose the speaker recognition system, robust to variations in emotional moods of speakers. Neural network models are explored to transform the speaker specific spectral features from any specific emotion to neutral. In this work, we have considered eight emotions namely, Anger, Sad, Disgust, Fear, Happy, Neutral, Sarcastic and Surprise. The emotional databases developed in Hindi, Telugu and German are used in this work for analyzing the effect of proposed feature transformation on the performance of speaker identification system. In this work, spectral features are represented by mel-frequency cepstral coefficients, and speaker models are developed using Gaussian mixture models. Performance of the speaker identification system is analyzed with various feature mapping techniques. Results have demonstrated that the proposed neural network based feature transformation has improved the speaker identification performance by 20 %. Feature transformation at the syllable level has shown the better performance, compared to sentence level.

تبدیل ویژگی شبکه عصبی برای شناسایی گوینده مستقل از احساسات

در این مقاله، ما یک چارچوب تبدیل ویژگی مبتنی بر شبکه عصبی را برای توسعه سیستم شناسایی گوینده مستقل احساس می‌کنیم. بسیاری از سیستم‌های تشخیص گویشور ممکن است در طول محیط‌های احساسی به خوبی عمل نکنند. در زندگی واقعی، انسان‌ها به طور گسترده احساسات خود را طی مکالمه برای انتقال موثر پیام‌ها بیان می‌کنند. بنابراین، در این کار ما سیستم بازشناسی گوینده را پیشنهاد می‌کنیم، که نسبت به تغییرات در حالت‌های هیجانی گویشوران، مقاوم است. مدل‌های شبکه عصبی برای تبدیل ویژگی‌های طیفی خاص گوینده از هر گونه احساسات خاص به خنثی بررسی می‌شوند. در این کار، ما هشت احساس را در نظر گرفته‌ایم که عبارتند از: عصبانیت، اندوه، ترس، ترس، خنثی، خنثی، Sarcastic و سورپرایز. پایگاه‌های اطلاعاتی هیجانی که در زبان هندی، Telugu و آلمانی ایجاد شده‌اند در این کار برای تحلیل تاثیر تحول ویژگی‌های پیشنهادی بر عملکرد سیستم شناسایی گویشور مورد استفاده قرار می‌گیرند. در این کار، ویژگی‌های طیفی با ضرایب cepstral - فرکانس mel نشان‌داده شده‌اند و مدل‌های سخنگو با استفاده از مدل‌های مخلوط گاوسی توسعه داده می‌شوند. عملکرد سیستم شناسایی گویشور با تکنیک‌های نگاشت ویژگی‌های مختلف مورد تجزیه و تحلیل قرار می‌گیرد. نتایج نشان می‌دهند که تبدیل ویژگی شبکه عصبی پیشنهادی، عملکرد شناسایی گوینده را ۲۰ % بهبود بخشیده‌است. تبدیل مشخصه در سطح هجایی عملکرد بهتری نسبت به سطح جمله نشان داده‌است.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.