view in publisher's site

Handling data irregularities in classification: Foundations, trends, and future challenges

Highlights•Data irregularities can significantly degrade the performance of classifiers.•We present a comprehensive taxonomy and survey of various data irregularities.•We discuss prominent methods to handle distribution and feature-based irregularities.•We highlight the co-occurrences and interrelations among different irregularities.•We unearth a number of promising future research avenues.AbstractMost of the traditional pattern classifiers assume their input data to be well-behaved in terms of similar underlying class distributions, balanced size of classes, the presence of a full set of observed features in all data instances, etc. Practical datasets, however, show up with various forms of irregularities that are, very often, sufficient to confuse a classifier, thus degrading its ability to learn from the data. In this article, we provide a bird’s eye view of such data irregularities, beginning with a taxonomy and characterization of various distribution-based and feature-based irregularities. Subsequently, we discuss the notable and recent approaches that have been taken to make the existing stand-alone as well as ensemble classifiers robust against such irregularities. We also discuss the interrelation and co-occurrences of the data irregularities including class imbalance, small disjuncts, class skew, missing features, and absent (non-existing or undefined) features. Finally, we uncover a number of interesting future research avenues that are equally contextual with respect to the regular as well as deep machine learning paradigms.

کنترل بی قاعدگی‌های داده‌ها در طبقه‌بندی: مبانی، روندها و چالش‌های آینده

نکات برجسته: بینظمی داده‌ها می‌تواند به طور قابل‌توجهی عملکرد طبقه‌بندی کننده‌ها را کاهش دهد. * ما طبقه‌بندی جامع و بررسی بی قاعدگی‌های مختلف داده‌ها را ارائه می‌دهیم. * روش‌های برجسته برای رسیدگی به توزیع و بی‌نظمی‌های مبتنی بر ویژگی را مورد بحث قرار می‌دهیم. * ما هم‌وقوع‌ها و روابط متقابل بین بی‌نظمی‌های مختلف را برجسته می‌کنیم. واکنش اکثر طبقه‌بندی کننده‌های الگوی سنتی فرض می‌کنند که داده‌های ورودی آن‌ها از نظر توزیع‌های کلاس مربوطه مشابه، اندازه متعادل کلاس‌ها، حضور مجموعه کاملی از ویژگی‌های مشاهده‌شده در تمام نمونه‌های داده و غیره، خوب رفتار می‌کنند. با این حال، مجموعه داده‌های عملی با اشکال مختلفی از بی قاعدگی‌ها نمایش داده می‌شوند که اغلب برای گیج کردن یک طبقه‌بندی کننده کافی هستند و بنابراین توانایی آن برای یادگیری از داده‌ها را کاهش می‌دهند. در این مقاله، ما یک دیدگاه عینی از چنین بی قاعدگی‌های داده‌ای ارائه می‌دهیم که با یک طبقه‌بندی و توصیف انواع بی قاعدگی‌های مبتنی بر توزیع و مبتنی بر ویژگی آغاز می‌شود. پس از آن، رویکردهای قابل‌توجه و اخیر را مورد بحث قرار می‌دهیم که برای ایجاد دسته‌بندی کننده‌های مستقل و گروهی موجود در برابر چنین بی‌نظمی‌هایی به کار گرفته شده‌اند. ما همچنین در مورد رابطه متقابل و وقوع همزمان بی قاعدگی‌های داده‌ها شامل عدم تعادل کلاس، عدم کارایی کوچک، انحراف کلاس، ویژگی‌های از دست رفته و ویژگی‌های غایب (غیر موجود یا تعریف‌نشده)بحث می‌کنیم. در نهایت، ما تعدادی از راه‌های تحقیقاتی جالب آینده را کشف می‌کنیم که به همان اندازه با توجه به الگوهای یادگیری ماشینی منظم و عمیق متنی هستند.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Artificial Intelligence
  • ترجمه مقاله Artificial Intelligence
  • مقاله هوش مصنوعی
  • ترجمه مقاله هوش مصنوعی
  • مقاله Signal Processing
  • ترجمه مقاله Signal Processing
  • مقاله پردازش سیگنال
  • ترجمه مقاله پردازش سیگنال
  • مقاله Computer Vision and Pattern Recognition
  • ترجمه مقاله Computer Vision and Pattern Recognition
  • مقاله بینایی کامپیوتری و تشخیص الگو
  • ترجمه مقاله بینایی کامپیوتری و تشخیص الگو
سفارش ترجمه مقاله و کتاب - شروع کنید

با استفاده از افزونه دانلود فایرفاکس چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.