view in publisher's site

Recognizing the message and the messenger: biomimetic spectral analysis for robust speech and speaker recognition

Humans are quite adept at communicating in presence of noise. However most speech processing systems, like automatic speech and speaker recognition systems, suffer from a significant drop in performance when speech signals are corrupted with unseen background distortions. The proposed work explores the use of a biologically-motivated multi-resolution spectral analysis for speech representation. This approach focuses on the information-rich spectral attributes of speech and presents an intricate yet computationally-efficient analysis of the speech signal by careful choice of model parameters. Further, the approach takes advantage of an information-theoretic analysis of the message and speaker dominant regions in the speech signal, and defines feature representations to address two diverse tasks such as speech and speaker recognition. The proposed analysis surpasses the standard Mel-Frequency Cepstral Coefficients (MFCC), and its enhanced variants (via mean subtraction, variance normalization and time sequence filtering) and yields significant improvements over a state-of-the-art noise robust feature scheme, on both speech and speaker recognition tasks.

تشخیص پیغام و پیک: تحلیل طیفی biomimetic برای بازشناسی مقاوم و بازشناسی گوینده

انسان‌ها در برقراری ارتباط در حضور نویز استاد هستند. با این حال، بیشتر سیستم‌های پردازش گفتار، مانند سیستم‌های بازشناسی گفتار خودکار و گوینده، از افت قابل‌توجهی در عملکرد رنج می‌برند هنگامی که سیگنال‌های گفتاری با distortions پس‌زمینه نادیده گرفته می‌شوند. این کار پیشنهاد شده، استفاده از یک تحلیل طیفی مبتنی بر biologically برای بازنمایی گفتار را بررسی می‌کند. این روش بر روی ویژگی‌های طیفی غنی از اطلاعات تمرکز می‌کند و یک تحلیل پیچیده و محاسباتی از سیگنال گفتار را با انتخاب دقیق پارامترهای مدل نشان می‌دهد. علاوه بر این، این رویکرد از تجزیه و تحلیل تیوریک - نظری پیام و مناطق مسلط گوینده در سیگنال گفتار بهره می‌برد و بازنمایی ویژگی را برای پرداختن به دو وظایف مختلف مانند بازشناسی گفتار و گوینده تعریف می‌کند. تحلیل پیشنهادی از the Mel - standard standard (MFCC)، و گونه‌های ارتقا یافته آن (از طریق کاهش میانگین، نرمال سازی واریانس و فیلترینگ توالی زمانی)بهتر است و بهبودهای قابل‌توجهی را بر روی یک طرح ویژگی مقاوم به نویز هنر، هم در کاره‌ای بازشناسی گفتار و گوینده ایجاد می‌کند.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Language and Linguistics
  • ترجمه مقاله Language and Linguistics
  • مقاله زبان و زبان‌شناسی
  • ترجمه مقاله زبان و زبان‌شناسی
  • مقاله Computer Vision and Pattern Recognition
  • ترجمه مقاله Computer Vision and Pattern Recognition
  • مقاله بینایی کامپیوتری و تشخیص الگو
  • ترجمه مقاله بینایی کامپیوتری و تشخیص الگو
  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Human-Computer Interaction
  • ترجمه مقاله Human-Computer Interaction
  • مقاله تعامل انسان - کامپیوتر
  • ترجمه مقاله تعامل انسان - کامپیوتر
  • مقاله Linguistics and Language
  • ترجمه مقاله Linguistics and Language
  • مقاله زبان‌شناسی و زبان
  • ترجمه مقاله زبان‌شناسی و زبان
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.