view in publisher's site

Query Expansion for Effective Retrieval Results of Hindi–English Cross-Lingual IR

Information retrieval (IR) is the science of identifying documents or sub-documents from a collection of information or database. The collection of information does not necessarily be available in only one language as information does not depend on languages. Monolingual IR is the process of retrieving information in query language whereas cross-lingual information retrieval (CLIR) is the process of retrieving information in a language that differs from query language. In current scenario, there is a strong demand of CLIR system because it allows the user to expand the international scope of searching a relevant document. As compared to monolingual IR, one of the biggest problems of CLIR is poor retrieval performance that occurs due to query mismatching, multiple representations of query terms and untranslated query terms. Query expansion (QE) is the process or technique of adding related terms to the original query for query reformulation. Purpose of QE is to improve the performance and quality of retrieved information in CLIR system. In this paper, QE has been explored for a Hindi–English CLIR in which Hindi queries are used to search English documents. We used Okapi BM25 for documents ranking, and then by using term selection value, translated queries have been expanded. All experiments have been performed using FIRE 2012 dataset. Our result shows that the relevancy of Hindi–English CLIR can be improved by adding the lowest frequency term.

گسترش تحقیقات پرس و جو برای بازیابی موثر نتایج بازیابی موثر IR - English IR - lingual IR

بازیابی اطلاعات (IR)علم شناسایی اسناد یا sub از مجموعه‌ای از اطلاعات یا پایگاه‌داده است. جمع‌آوری اطلاعات لزوما تنها در یک زبان موجود نیست چون اطلاعات به زبان‌ها بستگی ندارد. monolingual IR فرآیند بازیابی اطلاعات در زبان پرس و جو است در حالی که بازیابی اطلاعات متقابل (clir)فرآیند بازیابی اطلاعات در زبانی است که با زبان پرس و جو تفاوت دارد. در سناریوی فعلی، تقاضای زیادی برای سیستم clir وجود دارد، زیرا به کاربر اجازه می‌دهد تا دامنه بین‌المللی جستجوی یک سند مرتبط را توسعه دهد. در مقایسه با IR یک زبانه، یکی از بزرگ‌ترین مشکلات of، عملکرد بازیابی ضعیف است که به دلیل عدم تطابق موج رادیویی، بازنمایی‌های چندگانه از جملات بازگشتی و عبارات پرس و جو ترجمه نشده رخ می‌دهد. توسعه پرس و جو (QE، فرآیند یا تکنیک اضافه کردن اصطلاحات مرتبط به موج جدید برای فرمول‌بندی مجدد موج رادیویی است. هدف of بهبود عملکرد و کیفیت اطلاعات بازیابی شده در سیستم clir است. در این مقاله، QE برای یک clir هندی - انگلیسی که در آن پرس و جو هندی برای جستجوی مدارک انگلیسی مورد استفاده قرار می‌گیرند، کاوش شده‌است. ما از Okapi BM۲۵ برای رتبه‌بندی اسناد استفاده کردیم، و سپس با استفاده از ارزش انتخاب واژه، queries ترجمه شده‌اند. تمامی آزمایش‌ها با استفاده از مجموعه داده‌های آتش ۲۰۱۲ انجام شده‌است. نتایج ما نشان می‌دهد که تناسب زبان هندی - انگلیسی را می توان با افزودن کم‌ترین دوره فرکانسی، بهبود بخشید.

ترجمه شده با

Download PDF سفارش ترجمه این مقاله این مقاله را خودتان با کمک ترجمه کنید
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.