view in publisher's site

Mel scaled M-band wavelet filter bank for speech recognition

A Mel scaled M-band wavelet filter bank structure is used to extract the robust acoustic feature for speech recognition application. The proposed filter bank can provide flexibility of frequency partition that decomposes the speech signal into the M-frequency band. To estimate the difference between Mel scaled M-band wavelet and dyadic wavelet filter bank, relative bandwidth deviation (RBD) and root mean square bandwidth deviation (RMSBD) with respect to baseline (Mel filter bank bandwidth) is calculated. Proposed filter bank gives 40.90 and 49.84% reduction for RBD and RMSBD respectively, over 24-dyadic wavelet filter bank. Feature extraction from the proposed filter bank using AMUAV corpus shows an improvement in terms of word recognition accuracy (WRA) at all SNR range (20 dB to 0 dB) over baseline (MFCC) features. For AMUAV corpus, the proposed feature shows the maximum improvement in WRA of 3.93% over baseline features and 3.90% over dyadic wavelet filter bank features. When applied to the VidTIMIT corpus, proposed features show the maximum improvement in WRA of 1.64% over baseline features and 4.43% over dyadic features.

تشخیص گفتار برای بازشناسی گفتار با استفاده از فیلتر مدرج - M

از ساختار بانک فیلتر مدرج Mel scaled برای استخراج ویژگی صوتی مقاوم برای کاربرد بازشناسی گفتار استفاده می‌شود. بانک فیلتر پیشنهادی قابلیت انعطاف‌پذیری افراز فرکانس را فراهم می‌کند که سیگنال گفتار را به باند فرکانسی M تجزیه می‌کند. برای تخمین اختلاف بین موجک scaled و bank filter و bank دوتایی، انحراف باند نسبی (rbd)و میانگین پهنای باند مربعی ریشه (RMSBD)نسبت به پایه مبنا (پهنای باند بانک filter)محاسبه شده‌است. بانک فیلتر پیشنهادی به ترتیب ۴۰.۹۰ و ۴۹.۸۴ درصد نسبت به بانک فیلتر dyadic ۲۴ و RMSBD درصد کاهش نشان می‌دهد. استخراج ویژگی از بانک فیلتر پیشنهادی با استفاده از پیکره AMUAV بهبود از نظر دقت بازشناسی کلمه (WRA)را در تمام محدوده SNR (۲۰ dB تا ۰ dB)نسبت به ویژگی‌های پایه (MFCC)نشان می‌دهد. برای پیکره AMUAV، ویژگی پیشنهادی بیش‌ترین بهبود را در WRA % % نسبت به ویژگی‌های خط پایه و ۳.۹۰ % روی ویژگی‌های بانک فیلتر dyadic دوتایی نشان می‌دهد. هنگامی که در پیکره VidTIMIT اعمال شد، ویژگی‌های پیشنهادی حداکثر بهبود را در WRA از مشخصه‌های خط پایه و ۴.۴۳ درصد نسبت به ویژگی‌های دوتایی نشان می‌دهند.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Language and Linguistics
  • ترجمه مقاله Language and Linguistics
  • مقاله زبان و زبان‌شناسی
  • ترجمه مقاله زبان و زبان‌شناسی
  • مقاله Computer Vision and Pattern Recognition
  • ترجمه مقاله Computer Vision and Pattern Recognition
  • مقاله بینایی کامپیوتری و تشخیص الگو
  • ترجمه مقاله بینایی کامپیوتری و تشخیص الگو
  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Human-Computer Interaction
  • ترجمه مقاله Human-Computer Interaction
  • مقاله تعامل انسان - کامپیوتر
  • ترجمه مقاله تعامل انسان - کامپیوتر
  • مقاله Linguistics and Language
  • ترجمه مقاله Linguistics and Language
  • مقاله زبان‌شناسی و زبان
  • ترجمه مقاله زبان‌شناسی و زبان
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.