view in publisher's site

A Comparison of Different Off-Centered Entropies to Deal with Class Imbalance for Decision Trees

In data mining, large differences in prior class probabilities known as the class imbalance problem have been reported to hinder the performance of classifiers such as decision trees. Dealing with imbalanced and cost-sensitive data has been recognized as one of the 10 most challenging problems in data mining research. In decision trees learning, many measures are based on the concept of Shannon’s entropy. A major characteristic of the entropies is that they take their maximal value when the distribution of the modalities of the class variable is uniform. To deal with the class imbalance problem, we proposed an off-centered entropy which takes its maximum value for a distribution fixed by the user. This distribution can be the a priori distribution of the class variable modalities or a distribution taking into account the costs of misclassification. Others authors have proposed an asymmetric entropy. In this paper we present the concepts of the three entropies and compare their effectiveness on 20 imbalanced data sets. All our experiments are founded on the C4.5 decision trees algorithm, in which only the function of entropy is modified. The results are promising and show the interest of off-centered entropies to deal with the problem of class imbalance.

مقایسه of با مرکز Off مختلف برای مقابله با Imbalance کلاس برای درختان تصمیم‌گیری

در استخراج داده‌ها، تفاوت‌های زیادی در احتمالات کلاس قبلی که به عنوان مساله عدم تعادل کلاس شناخته می‌شود، گزارش شده‌است تا مانع عملکرد طبقه‌بندی کننده‌ها از قبیل درخت‌های تصمیم‌گیری شود. رسیدگی به داده‌های نامتعادل و داده‌های حساس به هزینه به عنوان یکی از ۱۰ چالش برانگیزترین مشکلات در تحقیقات معدن کاوی شناخته شده‌است. در یادگیری درخت تصمیم‌گیری، بسیاری از اقدامات براساس مفهوم آنتروپی شانون استوار است. ویژگی اصلی of این است که زمانی که توزیع حالات متغیر کلاس یکنواخت است مقدار حداکثر خود را بدست می‌آورند. برای مقابله با مساله عدم تعادل کلاس، ما یک آنتروپی off پیشنهاد کردیم که بیش‌ترین مقدار خود را برای توزیع ثابت توسط کاربر بدست می‌آورد. این توزیع می‌تواند یک توزیع قبلی در شرایط متغیر کلاس یا توزیع در نظر گرفتن هزینه طبقه‌بندی باشد. نویسندگان دیگر یک آنتروپی نامتقارن را پیشنهاد کرده‌اند. در این مقاله، مفاهیم سه entropies را ارایه کرده و اثربخشی آن‌ها را بر روی ۲۰ مجموعه داده نامتعادل مقایسه می‌کنیم. همه آزمایش‌ها ما براساس C۴ شکل گرفته‌اند. ۵ الگوریتم درخت تصمیم‌گیری، که در آن تن‌ها تابع آنتروپی اصلاح می‌شود. نتایج امیدوارکننده بوده و نشان‌دهنده علاقه of محور به مقابله با مشکل عدم تعادل طبقاتی است.

ترجمه شده با

Download PDF سفارش ترجمه این مقاله این مقاله را خودتان با کمک ترجمه کنید
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.