view in publisher's site

A novel voice conversion approach using cascaded powerful cepstrum predictors with excitation and phase extracted from the target training space encoded as a KD-tree

Voice conversion is an important problem in audio signal processing. The goal of voice conversion is to transform the speech signal of a source speaker such that it sounds as if it had been uttered by a target speaker. Our contribution in this paper includes a new methodology for designing the relationship between two sets of spectral envelopes. Our systems perform by: (1) cascading deep neural networks and Gaussian mixture model to construct DNN–GMM and GMM–DNN–GMM models in order to find a global mapping relationship between the cepstral vectors of the two speakers; (2) using a new spectral synthesis process with cascaded cepstrum predictors and excitation and phase extracted from the target training space encoded as a KD-tree. Experimental results of the proposed methods exhibit a great improvement of the intelligibility, the quality and naturalness of the converted speech signals when compared with stimuli obtained by baseline conversion methods. The extraction of excitation and phase from the target training space, permits the preservation of target speaker’s identity.

یک رویکرد تبدیل صدا جدید با استفاده از predictors cascaded powerful همراه با تحریک و فاز استخراج‌شده از فضای آموزشی هدف کدگذاری شده به عنوان یک درخت -

تبدیل صوت یک مساله مهم در پردازش سیگنال صوتی است. هدف تبدیل صدا تبدیل سیگنال سخنرانی یک گوینده منبع به گونه‌ای است که انگار توسط یک گوینده هدف گفته شده‌باشد. سهم ما در این مقاله شامل یک روش جدید برای طراحی رابطه بین دو مجموعه از پاکت‌های طیفی است. سیستم‌های ما اجرا می‌کنند: ۱)شبکه‌های عصبی عمیق و مدل مخلوط گاوسی به منظور یافتن یک رابطه نقشه‌برداری جهانی بین بردارهای cepstral دو سخنران؛ (۲)با استفاده از یک فرآیند ترکیب طیفی جدید با predictors cepstrum و تحریک و فاز استخراج‌شده از فضای آموزشی هدف کدگذاری شده به عنوان یک درخت KD. نتایج تجربی روش‌های پیشنهادی بهبود زیادی در قابلیت فهم، کیفیت و طبیعی بودن سیگنال‌های گفتاری تبدیل شده در مقایسه با محرک‌های به‌دست‌آمده از روش‌های تبدیل مبنا نشان می‌دهد. استخراج تحریک و فاز از فضای آموزشی هدف، به حفظ هویت گوینده هدف اجازه می‌دهد.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Language and Linguistics
  • ترجمه مقاله Language and Linguistics
  • مقاله زبان و زبان‌شناسی
  • ترجمه مقاله زبان و زبان‌شناسی
  • مقاله Computer Vision and Pattern Recognition
  • ترجمه مقاله Computer Vision and Pattern Recognition
  • مقاله بینایی کامپیوتری و تشخیص الگو
  • ترجمه مقاله بینایی کامپیوتری و تشخیص الگو
  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Human-Computer Interaction
  • ترجمه مقاله Human-Computer Interaction
  • مقاله تعامل انسان - کامپیوتر
  • ترجمه مقاله تعامل انسان - کامپیوتر
  • مقاله Linguistics and Language
  • ترجمه مقاله Linguistics and Language
  • مقاله زبان‌شناسی و زبان
  • ترجمه مقاله زبان‌شناسی و زبان
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.