view in publisher's site

Pitch adaptive MFCC features for improving children’s mismatched ASR

A pitch normalization algorithm is proposed for addressing the pitch mismatch between adults’ and children’s speech for children’s automatic speech recognition (ASR). Motivated by the appearance of pitch-dependent distortions in the smoothed mel spectral envelope for high-pitched children’s speech, the algorithm modifies the mel filterbank during MFCC feature extraction to improve ASR performance. Relative improvements of 16 % and 9 % are obtained over the corresponding baseline in children’s mismatched ASR performance on a connected-digit recognition task and a continuous speech recognition task. The improvements obtained in ASR performance with the proposed pitch normalization algorithm are also found to be additive to that obtained with existing speaker normalization techniques, VTLN and CMLLR.

ویژگی‌های MFCC سازگار برای بهبود ASR در کودکان

یک الگوریتم نرمال سازی گام برای پرداختن به عدم انطباق گام بین گفتار بزرگسالان و کودکان برای تشخیص خودکار گفتار کودکان (ASR پیشنهاد شده‌است. این الگوریتم در هنگام استخراج ویژگی‌های MFCC برای بهبود عملکرد ASR، the spectral را در هنگام استخراج ویژگی MFCC در طول استخراج ویژگی‌های MFCC اصلاح می‌کند. بهبود نسبی ۱۶ % و ۹ % نسبت به پایه متناظر در عملکرد ASR در کودکان در یک کار تشخیص انگشت متصل و یک وظیفه بازشناسی گفتار پیوسته بدست می‌آید. همچنین مشاهده شد که بهبودهای حاصل‌شده در عملکرد ASR در مقایسه با الگوریتم نرمال سازی گام پیشنهاد شده با روش‌های نرمال سازی گویشور، vtln و CMLLR به دست می‌آید.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.