view in publisher's site

Speaker verification using excitation source information

In this work we develop a speaker recognition system based on the excitation source information and demonstrate its significance by comparing with the vocal tract information based system. The speaker-specific excitation information is extracted by the subsegmental, segmental and suprasegmental processing of the LP residual. The speaker-specific information from each level is modeled independently using Gaussian mixture modeling—universal background model (GMM-UBM) modeling and then combined at the score level. The significance of the proposed speaker recognition system is demonstrated by conducting speaker verification experiments on the NIST-03 database. Two different tests, namely, Clean test and Noisy test are conducted. In case of Clean test, the test speech signal is used as it is for verification. In case of Noisy test, the test speech is corrupted by factory noise (9 dB) and then used for verification. Even though for Clean test case, the proposed source based speaker recognition system still provides relatively poor performance than the vocal tract information, its performance is better for Noisy test case. Finally, for both clean and noisy cases, by providing different and robust speaker-specific evidences, the proposed system helps the vocal tract system to further improve the overall performance.

تایید سخنگو با استفاده از اطلاعات منبع تحریک

در این کار ما یک سیستم بازشناسی گوینده مبتنی بر اطلاعات منبع تحریک توسعه می‌دهیم و اهمیت آن را با مقایسه با سیستم اطلاعات سیستم صوتی نشان می‌دهیم. اطلاعات تحریک خاص گوینده توسط پردازش subsegmental، قطعه‌ای و suprasegmental باقی مانده LP استخراج می‌شود. اطلاعات خاص گوینده از هر سطح به طور مستقل با استفاده از مدل‌سازی مخلوط گاوسی - مدل پس‌زمینه جهانی (GMM - ubm)مدل‌سازی شده و سپس در سطح امتیاز ترکیب می‌شوند. اهمیت سیستم تشخیص گویشور توسط هدایت آزمایش‌ها تایید گویشور در پایگاه‌داده NIST - ۰۳ نشان داده می‌شود. دو تست مختلف یعنی تست تمیز و تست پر سر و صدا انجام می‌شوند. در مورد تست تمیز، از سیگنال گفتار تست برای تایید استفاده می‌شود. در مورد آزمایش Noisy، گفتار تست توسط نویز کارخانه (۹ دسی‌بل)خراب می‌شود و سپس برای تایید استفاده می‌شود. حتی اگر برای حالت تست تمیز، سیستم بازشناسی گوینده مبتنی بر مرجع هنوز عملکرد نسبتا ضعیفی نسبت به اطلاعات دستگاه صوتی دارد، عملکرد آن برای مورد آزمایش پر سر و صدا بهتر است. در نهایت برای هر دو حالت تمیز و پر سر و صدا، با ارایه شواهد متفاوت و خاص گوینده، سیستم پیشنهادی به سیستم دستگاه صوتی کمک می‌کند تا عملکرد کلی را بهبود بخشد.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.