view in publisher's site

Designing of Gabor filters for spectro-temporal feature extraction to improve the performance of ASR system

Existing automatic speech recognition (ASR) system uses the spectral or temporal features of speech. The performance of such systems is still poor compared to the human perception of hearing, especially in noisy environments. This paper concentrates on the extraction of spectro-temporal features based on physiological and psychoacoustically inspired approaches. Here, two dimensional Gabor filters are used to estimate the spectro-temporal features from time–frequency representation of uttered speech signals. The Gabor filters are designed using the concept of constant Q factor. It is found that human perception system maintains approximately constant Q in its frequency response along the chain of its filter bank. Constant Q analysis ensures that the Gabor filters occupy a set of geometrically spaced spectral and temporal bins. Time–frequency representation of speech signal is a key ingredient for Gabor based feature extraction method. For time–frequency mapping, Gammatonegram is adopted instead of conventional spectrogram representations. The performance of the ASR system with the proposed feature set is experimentally validated using AURORA2 noisy digit database. Under clean training; the proposed features obtained a relative improvement of about 50% in word error rate (WER) compared to Mel frequency cepstral coefficients (MFCC) features. A relative improvement of 23% in WER is also obtained compared with that of existing spectro-temporal feature extraction methods. Further analysis is carried out on TIMIT corrupted with noise samples taken from the NOISEX-92 database. The experimental verification proves the robustness of proposed features in building a robust acoustic model for the ASR system.

طراحی فیلترهای گابور برای استخراج ویژگی زمانی - زمانی برای بهبود عملکرد سیستم ASR است.

سیستم تشخیص گفتار اتوماتیک موجود (ASR)از ویژگی‌های شبح یا موقتی سخن استفاده می‌کند. عملکرد چنین سیستم‌هایی در مقایسه با ادراک انسان از شنوایی، به ویژه در محیط‌های پر سر و صدا ضعیف است. این مقاله بر استخراج ویژگی‌های spectro - زمانی براساس رویکردهای فیزیولوژیکی و psychoacoustically تمرکز دارد. در اینجا از دو فیلتر گابور دوبعدی برای تخمین ویژگی‌های spectro - زمانی از طریق نمایش فرکانس زمانی بیان شده‌است. فیلترهای گابور با استفاده از مفهوم عامل ثابت Q طراحی شده‌اند. مشخص شده‌است که سیستم ادراک انسانی در واکنش فرکانس خود در امتداد زنجیره بانک فیلتر آن ثابت می‌ماند. تحلیل ثابت Q تضمین می‌کند که فیلترهای گابور یک سری از bins دارای فاصله از نظر هندسی و موقتی را اشغال می‌کنند. نمایش فرکانس - فرکانس سیگنال گفتار جز اصلی برای روش استخراج ویژگی‌های گابور است. برای نگاشت فرکانس زمانی، Gammatonegram به جای ارائه طیف‌نگاری مرسوم مورد استفاده قرار می‌گیرد. عملکرد سیستم ASR با مجموعه مشخصه‌های پیشنهادی به صورت تجربی با استفاده از پایگاه‌داده digit AURORA۲ تایید شده‌است. تحت آموزش تمیز، ویژگی‌های پیشنهادی یک بهبود نسبی حدود ۵۰ % در نرخ خطای کلمه (wer)را در مقایسه با ضرایب شدت frequency مل (MFCC)به دست آورده‌اند. بهبود نسبی ۲۳ % در wer نیز در مقایسه با روش‌های استخراج ویژگی - زمانی موجود، بدست می‌آید. تجزیه و تحلیل بیشتر بر روی TIMIT تخریب‌شده با نمونه‌های نویزی که از پایگاه‌داده NOISEX - ۹۲ گرفته شده‌است انجام می‌شود. تایید تجربی مقاومت مشخصه‌های پیشنهادی در ساخت یک مدل صوتی قوی برای سیستم ASR را اثبات می‌کند.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Language and Linguistics
  • ترجمه مقاله Language and Linguistics
  • مقاله زبان و زبان‌شناسی
  • ترجمه مقاله زبان و زبان‌شناسی
  • مقاله Computer Vision and Pattern Recognition
  • ترجمه مقاله Computer Vision and Pattern Recognition
  • مقاله بینایی کامپیوتری و تشخیص الگو
  • ترجمه مقاله بینایی کامپیوتری و تشخیص الگو
  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Human-Computer Interaction
  • ترجمه مقاله Human-Computer Interaction
  • مقاله تعامل انسان - کامپیوتر
  • ترجمه مقاله تعامل انسان - کامپیوتر
  • مقاله Linguistics and Language
  • ترجمه مقاله Linguistics and Language
  • مقاله زبان‌شناسی و زبان
  • ترجمه مقاله زبان‌شناسی و زبان
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.