Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts
The quality of machine translation is rapidly evolving. Today one can find several machine translation systems on the web that provide reasonable translations, although the systems are not perfect. In some specific domains, the quality may decrease. A recently proposed approach to this domain is neural machine translation. It aims at building a jointly-tuned single neural network that maximizes translation performance, a very different approach from traditional statistical machine translation. Recently proposed neural machine translation models often belong to the encoder-decoder family in which a source sentence is encoded into a fixed length vector that is, in turn, decoded to generate a translation. The present research examines the effects of different training methods on a Polish-English Machine Translation system used for medical data. The European Medicines Agency parallel text corpus was used as the basis for training of neural and statistical network-based translation systems. The main machine translation evaluation metrics have also been used in analysis of the systems. A comparison and implementation of a real-time medical translator is the main focus of our experiments.
ترجمه ماشینی مبتنی بر عصبی برای دامنه متنی پزشکی. بر پایه موسسه دارویی اروپا Leaflet Texts
کیفیت ترجمه ماشینی به سرعت در حال تحول است. امروزه می توان چندین سیستم ترجمه ماشینی را در وب پیدا کرد که ترجمههای منطقی را ارایه میدهد، اگرچه سیستمها کامل نیستند. در برخی از حوزههای خاص، کیفیت ممکن است کاهش یابد. یک روش پیشنهادی اخیرا برای این حوزه ترجمه ماشینی عصبی است. هدف از آن ساخت یک شبکه عصبی واحد تنظیمشده به صورت مشترک است که عملکرد ترجمه را به حداکثر میرساند، یک روش بسیار متفاوت از ترجمه ماشینی آماری سنتی. اخیرا مدلهای ترجمه ماشین عصبی پیشنهادی اغلب متعلق به خانواده کدگشا - کدگشا هستند که در آن یک جمله منبع به یک بردار طول ثابت کدگذاری میشود که به نوبه خود برای تولید یک ترجمه رمز گشایی شدهاست. پژوهش حاضر به بررسی تاثیر روشهای مختلف آموزشی بر روی سیستم ترجمه ماشینی - انگلیسی است که برای دادههای پزشکی مورد استفاده قرار میگیرد. پیکره موازی متن به طور موازی به عنوان اساس آموزش سیستمهای ترجمه مبتنی بر شبکه عصبی و مبتنی بر شبکه مورد استفاده قرار گرفت. متریک اصلی ترجمه ماشینی نیز در تحلیل سیستمها استفاده شدهاست. یک مقایسه و اجرای یک مترجم پزشکی واقعی کانون اصلی آزمایشها ما است.