view in publisher's site

Statistical-based system combination approach to gain advantages over different machine translation systems

Every machine translation system has some advantages. We propose an improved statistical system combination approach to achieve the advantages of existing machine translation systems. The primary task is to score all the phrases of the outputs of different machine translation systems selected for combination. Three steps are involved in the proposed statistical system combination approach, viz., alignment, decoding, and scoring. Pair alignment is done in the first step to prevent duplication so that only a single phrase is chosen from various phrases containing the same information. Thus the alignment and scoring strategy are implemented in our approach. Hypotheses are built in the second step. In the third step, we calculate the scores for all the hypotheses. The hypothesis with the highest score is chosen as the final translated output. Wrong scoring can mislead to identify the best part from different systems. It may be noted that a particular phrase may appear in various ways in different translations. To resolve the challenges, we incorporate WordNet in the alignment phase and word2vec in the scoring phase along with the existing factors. We find that the system combination model using WordNet and word2vec injection improves the machine translation accuracy. In this work, we have merged three systems viz., Hierarchical machine translation system, Bing Microsoft Translate, and Google Translate. The broad tests of translation on eight language pairs with benchmark datasets demonstrate that the proposed system achieves better quality than the individual systems and the state-of-the-art system combination models.

رویکرد ترکیب سیستم مبتنی بر آمار برای بدست آوردن مزیت نسبت به سیستم‌های ترجمه ماشینی مختلف

هر سیستم ترجمه ماشینی دارای مزایایی است. ما یک رویکرد ترکیبی بهبود یافته سیستم آماری را برای دستیابی به مزایای سیستم‌های ترجمه ماشینی موجود پیشنهاد می‌کنیم. وظیفه اصلی این است که همه عبارت‌های مربوط به خروجی‌های سیستم‌های ترجمه ماشینی مختلف را که برای ترکیب انتخاب شده‌اند، به دست آورید. سه مرحله در روش ترکیبی سیستم آماری پیشنهادی، عبارتند از: ۱. ،، رمزگشایی، و امتیازدهی. هم‌تراز کردن جفت در اولین مرحله برای جلوگیری از تکرار انجام می‌شود به طوری که تنها یک عبارت از عبارت‌های مختلف حاوی اطلاعات یک‌سان انتخاب می‌شود. بنابراین هم ترازی و استراتژی امتیازدهی در روش ما اجرا می‌شوند. فرضیه‌ها در مرحله دوم ساخته می‌شوند. در مرحله سوم، امتیازهای تمام فرضیه‌ها را محاسبه می‌کنیم. این فرضیه با بالاترین امتیاز به عنوان خروجی ن‌هایی ترجمه می‌شود. امتیاز دهی اشتباه می‌تواند به اشتباه منجر به شناسایی بهترین قسمت از سیستم‌های مختلف شود. لازم به ذکر است که یک عبارت خاص ممکن است به روش‌های مختلفی در ترجمه‌های مختلف ظاهر شود. برای حل این چالش‌ها، ما WordNet را در مرحله همترازسازی و word۲vec در مرحله امتیازدهی به همراه عوامل موجود در نظر می‌گیریم. ما دریافتیم که مدل ترکیبی سیستم با استفاده از تزریق WordNet و word۲vec دقت ترجمه ماشینی را بهبود می‌بخشد. ما در این کار سه سیستم را به صورت خلاصه ادغام کرده‌ایم. ، سیستم ترجمه ماشینی سلسله مراتبی، بینگ مایکروسافت و گوگل ترجمه. آزمون‌های گسترده ترجمه روی هشت جفت زبانی با مجموعه داده‌های معیار نشان می‌دهد که سیستم پیشنهادی به کیفیت بهتری نسبت به سیستم‌های جداگانه و مدل‌های ترکیبی سیستم - هنری دست می‌یابد.

ترجمه شده با

Download PDF سفارش ترجمه این مقاله این مقاله را خودتان با کمک ترجمه کنید
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.