view in publisher's site

Fuzzy Sarsa Learning and the proof of existence of its stationary points

Abstract This paper provides a new Fuzzy Reinforcement Learning (FRL) algorithm based on critic-only architecture. The proposed algorithm, called Fuzzy Sarsa Learning (FSL), tunes the parameters of conclusion parts of the Fuzzy Inference System (FIS) online. Our FSL is based on Sarsa, which approximates the Action Value Function (AVF) and is an on-policy method. In each rule, actions are selected according to the proposed modified Softmax action selection so that the final inferred action selection probability in FSL is equivalent to the standard Softmax formula. We prove the existence of fixed points for the proposed Approximate Action Value Iteration (AAVI). Then, we show that FSL satisfies the necessary conditions that guarantee the existence of stationary points for it, which coincide with the fixed points of the AAVI. We prove that the weight vector of FSL with stationary action selection policy converges to a unique value. We also compare by simulation the performance of FSL and Fuzzy Q-Learning (FQL) in terms of learning speed, and action quality. Moreover, we show by another example the convergence of FSL and the divergence of FQL when both algorithms use a stationary policy. Copyright © 2008 John Wiley and Sons Asia Pte Ltd and Chinese Automatic Control Society

یادگیری سارسا فازی و اثبات وجود نقاط ثابت آن

چکیده این مقاله یک الگوریتم جدید یادگیری تقویت‌شده فازی (FRL)را براساس معماری تنها - منتقد ارائه می‌دهد. الگوریتم پیشنهادی، به نام یادگیری سارسا فازی (FSL)، پارامترهای بخش‌های نتیجه‌گیری سیستم استنتاج فازی (FIS)را به صورت آنلاین تنظیم می‌کند. FSL ما براساس Sarsa است، که تابع ارزش عملکرد (AVF)را تقریب می‌زند و یک روش سیاست گذاری است. در هر قانون، کنش‌ها مطابق با انتخاب عمل سافتماکس اصلاح‌شده پیشنهادی انتخاب می‌شوند به طوری که احتمال انتخاب عمل استنتاج شده نهایی در FSL معادل با فرمول سافتماکس استاندارد است. ما وجود نقاط ثابت را برای تکرار مقدار فعالیت تقریبی پیشنهادی (AAVI)اثبات می‌کنیم. سپس نشان می‌دهیم که FSL شرایط لازم برای تضمین وجود نقاط ثابت برای آن را برآورده می‌کند که با نقاط ثابت AAVI همزمان است. ما اثبات می‌کنیم که بردار وزن FSL با سیاست انتخاب عمل ثابت به یک مقدار منحصر به فرد همگرا می‌شود. ما همچنین با شبیه‌سازی عملکرد FSL و یادگیری Q فازی (FQL)از نظر سرعت یادگیری و کیفیت عمل مقایسه می‌کنیم. علاوه بر این، با مثالی دیگر هم‌گرایی FSL و واگرایی FQL را زمانی که هر دو الگوریتم از سیاست ثابت استفاده می‌کنند، نشان می‌دهیم. حق نسخه‌برداری جان ویلی و پسران آسیا پیت با مسئولیت محدود و انجمن کنترل خودکار چین
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Control and Systems Engineering
  • ترجمه مقاله Control and Systems Engineering
  • مقاله مهندسی کنترل و سیستم‌ها
  • ترجمه مقاله مهندسی کنترل و سیستم‌ها
سفارش ترجمه مقاله و کتاب - شروع کنید

با استفاده از افزونه دانلود فایرفاکس چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.