view in publisher's site

Speech enhancement by combining spectral subtraction and minimum mean square error-spectrum power estimator based on zero crossing

Speech data collected under uncontrolled environment need to be processed to build a robust automatic speech recognition system. In this paper, a method is proposed to process the degraded speech signal. Initially, the significance of the spectral subtraction with voice activity detection (SS-VAD) and magnitude squared spectrum estimators are studied for different types of noises. In SS-VAD method, the degraded speech data is sampled and windowed into 50% overlapping. The VAD is used to detect the voiced regions of speech signal. The minimum mean square error-short time power spectrum, minimum mean square error-spectrum power based on zero crossing (MMSE-SPZC) and maximum a posteriori estimators are studied individually. These MSS estimators are implemented on the assumption that the magnitude squared spectrum of the degraded speech signal is the sum of the clean (original) speech signal and noise model. The experimental results show that the MMSE-SPZC estimator gives better performance compared to the other two methods. This estimator is combined with SS-VAD method to improve the performance. In this paper, the combined SS-VAD and MMSE-SPZC method, yields better speech quality by reducing noise in degraded speech signal compared to the individual methods.

افزایش گفتار از ترکیب کاهش طیفی و کمینه مربعات خطای میانگین مربعات مبتنی بر تقاطع صفر

داده‌های گفتار جمع‌آوری‌شده تحت شرایط کنترل‌نشده باید برای ساخت یک سیستم تشخیص گفتار خودکار قوی پردازش شود. در این مقاله، روشی برای پردازش سیگنال سخنرانی تخریب‌شده پیشنهاد شده‌است. در ابتدا، اهمیت کاهش طیفی با تشخیص فعالیت صدا (SS - VAD)و برآورد کننده‌های طیف توان مربعی برای انواع مختلفی از صداها مورد مطالعه قرار می‌گیرند. در روش SS - VAD، داده‌های گفتاری تخریب‌شده، نمونه‌گیری شده و تا ۵۰ % همپوشانی دارند. The برای تشخیص مناطق بیان‌شده از سیگنال گفتار به کار می‌رود. حداقل میانگین مربعات خطای مربع - زمان کوتاه زمانی، حداقل میانگین مربعات خطای جذر میانگین بر مبنای تقاطع صفر (mmse - SPZC)و حداکثر یک برآورد کننده‌های β به صورت جداگانه مطالعه می‌شوند. این برآوردگرهای MSS به این فرض پیاده‌سازی می‌شوند که طیف توان مربعی از سیگنال گفتار تخریب‌شده عبارت است از مجموع سیگنال گفتار (اصلی)و مدل سر و صدا. نتایج تجربی نشان می‌دهد که برآورد کننده mmse - SPZC عملکرد بهتری نسبت به دو روش دیگر دارد. این برآورد کننده با روش SS - VAD برای بهبود عملکرد ترکیب شده‌است. در این مقاله، روش ترکیبی SS - VAD و روش mmse - SPZC، کیفیت گفتار بهتری را با کاهش نویز در سیگنال گفتار تخریب‌شده در مقایسه با روش‌های منفرد، به دست می‌دهد.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.