view in publisher's site

ParaML: A Polyvalent Multi-core Accelerator for Machine Learning

In recent years, Machine Learning (ML) techniques are proven to be powerful tools in various emerging applications. Traditionally, ML techniques are processed on general-purpose CPUs and GPUs, but their energy-efficiencies are limited due to their excessive support for flexibility. As an efficient alternative to CPUs/GPUs, hardware accelerators are still limited as they often accommodate only a single ML technique (family). However, different problems may require different ML techniques, which implies that such accelerators may achieve poor learning accuracy or even be ineffective. In this study, we present a polyvalent accelerator architecture integrated with multiple processing cores, called ParaML, which accommodates ten representative ML techniques, including k-means, k-nearest neighbors (k-NN), naive bayes (NB), support vector machine (SVM), linear regression (LR), classification tree (CT), deep neural network (DNN), learning vector quantization (LVQ), parzen window (PW) and principal component analysis (PCA). Benefited from our thorough analysis on computational primitives and locality properties of different ML techniques, the single-core ParaML can perform up to 1056 GOP/s (e.g., additions and multiplications) in an area of 3.51 mm and consumes 596 mW only, estimated by ICC and PrimeTime PX with post-synthesis netlist respectively. Compared with the NVIDIA K20M GPU (28 nm process), the single-core ParaML (65 nm process) is 1.21× faster, and can reduce the energy by 137.93×. We also compare the single-core ParaML with other accelerators. Compared with PRINS, single-core ParaML achieves 72.09× and 2.57× energy benefit for k-NN and k-means respectively, and speeds up each query in k-NN by 44.76×. Compared with EIE, the single-core ParaML achieves 5.02× speedup and 4.97× energy benefit with 11.62× less area when evaluating with dense DNN. Compared with TPU, the single-core ParaML achieves 2.45× better power efficiency (5647 Gop/W vs. 2300 Gop/W) with 321.36× less area. Compared to the single-core version, the 8-core ParaML will further improve the speedup up to 3.98× with an area of 13.44 mm and a power of 2036 mW.

پارامول: یک شتاب‌ده چند هسته‌ای چند ظرفیتی برای یادگیری ماشینی

در سال‌های اخیر، تکنیک‌های یادگیری ماشینی (ML)ابزارهای قدرتمندی در کاربردهای مختلف در حال ظهور هستند. به طور سنتی، تکنیک‌های ML بر روی CPU ها و GPU های با هدف کلی پردازش می‌شوند، اما بهره‌وری انرژی آن‌ها به دلیل حمایت بیش از حد آن‌ها از انعطاف‌پذیری محدود می‌شود. به عنوان یک جایگزین کارآمد برای CPU ها / GPU ها، شتاب‌دهنده‌های سخت‌افزاری هنوز هم محدود هستند زیرا آن‌ها اغلب تنها یک تکنیک ML واحد (خانواده)را در خود جای می‌دهند. با این حال، مشکلات مختلف ممکن است نیاز به تکنیک‌های مختلف ML داشته باشند، که نشان می‌دهد که چنین شتاب‌دهنده‌ها ممکن است به دقت یادگیری ضعیف دست یابند یا حتی بی‌اثر باشند. در این مطالعه، ما یک معماری شتاب‌دهنده پلی والانت یکپارچه شده با هسته‌های پردازش چندگانه، به نام ParaML را ارائه می‌دهیم که شامل ده تکنیک ML نماینده، از جمله k - means، k - نزدیک‌ترین همسایه (k - NN)، بیز ساده (NB)، ماشین بردار پشتیبان (SVM)، رگرسیون خطی (LR)، درخت طبقه‌بندی (CT)، شبکه عصبی عمیق (DNN)، کوانتیزه کردن بردار یادگیری (LVQ)، مولفه تجزیه و تحلیل پنجره (PW (PW)است. با بهره‌گیری از تجزیه و تحلیل کامل ما در مورد اولویت‌های محاسباتی و ویژگی‌های محلی تکنیک‌های ML مختلف، ParaML تک هسته‌ای می‌تواند تا ۱۰۵۶ GOP / s (به عنوان مثال، اضافه و ضرب)در یک ناحیه ۳.۵۱ mm اجرا کند و فقط ۵۹۶ mW را مصرف می‌کند، که توسط ICC و PrimeTime PX به ترتیب با فهرست شبکه پس از سنتز تخمین زده شده‌است. در مقایسه با NVIDIA K۲۰M GPU (فرآیند ۲۸ nm)، ParaML تک هسته‌ای (فرآیند ۶۵ nm)۱.۲۱ * سریع‌تر است و می‌تواند انرژی را به ۱۳۷.۹۳ * کاهش دهد. ما همچنین ParaML تک هسته‌ای را با دیگر شتاب‌دهنده‌ها مقایسه می‌کنیم. در مقایسه با PRINS، ParaML تک هسته‌ای به ترتیب به ۷۲.۰۹ * و ۲.۵۷ * مزیت انرژی برای k - NN و k - means دست می‌یابد و هر پرس و جو در k - NN را با ۴۴.۷۶ * سرعت می‌بخشد. در مقایسه با EIE، ParaML تک هسته‌ای به ۵.۰۲ * افزایش سرعت و ۴.۹۷ * مزیت انرژی با ناحیه ۱۱.۶۲ * کم‌تر در هنگام ارزیابی با DNN متراکم دست می‌یابد. در مقایسه با TPU، ParaML تک هسته‌ای به بهره‌وری توان ۲.۴۵ * بهتر دست می‌یابد (۵۶۴۷ Gop / W در مقابل. ۲۳۰۰ Gop / W)با مساحت ۳۲۱.۳۶ * کم‌تر. در مقایسه با نسخه تک هسته‌ای، ParaML ۸ هسته‌ای سرعت را تا ۳.۹۸ * با مساحت ۱۳.۴۴ mm و قدرت ۲۰۳۶ mW بهبود می‌بخشد.
ترجمه شده با


پر ارجاع‌ترین مقالات مرتبط:

  • مقاله Electrical and Electronic Engineering
  • ترجمه مقاله Electrical and Electronic Engineering
  • مقاله مهندسی برق و الکترونیک
  • ترجمه مقاله مهندسی برق و الکترونیک
  • مقاله Software
  • ترجمه مقاله Software
  • مقاله نرم‌افزار
  • ترجمه مقاله نرم‌افزار
  • مقاله Computer Graphics and Computer-Aided Design
  • ترجمه مقاله Computer Graphics and Computer-Aided Design
  • مقاله گرافیک کامپیوتر و طراحی به کمک کامپیوتر
  • ترجمه مقاله گرافیک کامپیوتر و طراحی به کمک کامپیوتر
سفارش ترجمه مقاله و کتاب - شروع کنید

با استفاده از افزونه دانلود فایرفاکس چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.