view in publisher's site

Genetic Algorithms for Variable Selection and Pattern Recognition

An approach to variable selection based on identifying the smallest set of variables that optimize the separation of the classes in a plot of the two or three largest principal components of the data using a genetic algorithm (GA) is discussed. Principal component analysis, which is incorporated into the fitness function of the pattern recognition GA acts as an information filter significantly reducing the size of the search space since it restricts the search to variables whose principal component plots show clustering on the basis of sample class membership. To evaluate and compare different chromosomes (i.e., variable subsets), object functions that quantify the fitness of different variable subsets comprising the population of potential solutions have been formulated. In addition, the fitness function of the pattern recognition GA is able to focus on those samples and classes that are difficult to classify by boosting their weights over successive generations. During each generation, sample and class weights are adjusted using a perceptron with the momentum term set by the user. Samples and classes that score well are not as heavily weighted as those samples and classes that are difficult to classify. Over time, the pattern recognition GA is able to learn its optimal parameters in a manner similar to a neural network. The pattern recognition GA integrates aspects of both strong and weak learning to yield a “smart” one-pass procedure for variable selection and classification. The advantages of using the pattern recognition GA to extract information from chemical data sets are demonstrated via problems in the areas of materials, structure-activity relationship studies, and forensic automotive paint analysis.

الگوریتم های ژنتیک برای انتخاب متغیر و تشخیص الگو

روشی برای انتخاب متغیر براساس شناسایی کوچک‌ترین مجموعه متغیرهایی که جداسازی کلاس‌ها را در یک نمودار از دو یا سه مولفه اصلی بزرگ داده‌ها با استفاده از الگوریتم ژنتیک (GA)بهینه می‌کنند، مورد بحث قرار گرفته‌است. تجزیه و تحلیل اجزای اصلی، که در تابع تناسب شناخت الگو گنجانده شده‌است، GA به عنوان یک فیلتر اطلاعاتی عمل می‌کند که به طور قابل‌توجهی اندازه فضای جستجو را کاهش می‌دهد زیرا جستجو را به متغیرهایی محدود می‌کند که نمودار اجزای اصلی آن‌ها خوشه‌بندی را براساس عضویت در طبقه نمونه نشان می‌دهد. برای ارزیابی و مقایسه کروموزوم‌های مختلف (یعنی زیر مجموعه‌های متغیر)، توابع شییی که تناسب زیر مجموعه‌های متغیر مختلف را که شامل جمعیت راه‌حل‌های بالقوه است، تعیین می‌کنند، فرمول‌بندی شده‌اند. علاوه بر این، تابع تناسب شناخت الگو GA قادر به تمرکز بر روی آن نمونه‌ها و کلاس‌هایی است که طبقه‌بندی آن‌ها با افزایش وزن‌هایشان در طول نسل‌های متوالی مشکل است. در طول هر نسل، وزن‌های نمونه و کلاس با استفاده از یک پرسپترون با عبارت مومنتوم تنظیم‌شده توسط کاربر تنظیم می‌شوند. نمونه‌ها و کلاس‌هایی که به خوبی امتیاز می‌دهند به اندازه آن دسته از نمونه‌ها و کلاس‌هایی که طبقه‌بندی آن‌ها دشوار است، وزنی ندارند. در طول زمان، شناخت الگو GA قادر به یادگیری پارامترهای بهینه خود به روشی مشابه با شبکه عصبی است. شناخت الگو GA جنبه‌های یادگیری قوی و ضعیف را با هم ترکیب می‌کند تا یک روش "هوشمند" برای انتخاب و طبقه‌بندی متغیر ارایه دهد. مزایای استفاده از شناسایی الگو GA برای استخراج اطلاعات از مجموعه داده‌های شیمیایی از طریق مشکلات در حوزه‌های مواد، مطالعات رابطه ساختار - فعالیت، و تحلیل رنگ قانونی خودرو نشان داده می‌شود.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

با استفاده از افزونه دانلود فایرفاکس چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.