view in publisher's site

Exploring Resource-Efficient Acceleration Algorithm for Transposed Convolution of GANs on FPGA

In recent years, Generative Adversarial Networks (GANs) have been widely adopted for computer vision tasks such as generation/synthesis of massive images and 3D object modeling. The hardware acceleration of Transposed Convolution layers is especially essential since the Generative Model (Generator) as a critical component in GANs is computationally intensive in nature. In transposed Convolution, the zeros-inserting preprocessing causes sparsity of the feature maps and further results in many invalid operations. Most of the existing FPGA architectures cannot effectively tackle this issue. To address the challenges of implementing Transposed Convolution on FPGAs, we present an innovative dataflow design approach by applying the Winograd algorithm for fast processing with a high efficiency in terms of resource allocations. In addition, we propose an underlying Hardware Accelerator Architecture that features having PUs embedded in Parallel, Pipelined, and Buffered processing flow. In this paper, a parallelism-aware Memory Partition scheme is also exploded for bandwidth efficient data access. Implementations of several state-of-the-art GANs by our approach achieves an average performance of 639.2 GOPS on Xilinx ZCU102 FPGA device. In reference to an optimized conventional accelerator baseline, this work demonstrates an 8.6× (up to 11.7×) improvement in processing performance, compared to below 2.2× improvement by the other works in literature.

کشف الگوریتم شتاب موثر - کارآمد برای transposed Convolution از FPGA ها در FPGA

در سال‌های اخیر، شبکه‌های مولد adversarial (gans)به طور گسترده برای کاره‌ای بینایی رایانه‌ای مانند تولید / ساخت تصاویر انبوه و مدل‌سازی شی سه‌بعدی به کار گرفته شده‌اند. شتاب سخت‌افزار در لایه‌های transposed بسیار ضروری است زیرا مدل مولد (ژنراتور)به عنوان یک جز مهم در gans، از لحاظ محاسباتی بسیار زیاد است. در Convolution transposed، پیش‌پردازش روی صفر باعث sparsity نقشه‌های ویژگی و نتایج بیشتر در بسیاری از عملیات‌های نامعتبر می‌شود. اکثر معماری‌های FPGA موجود نمی‌توانند به طور موثر با این مساله مقابله کنند. ما با استفاده از الگوریتم Winograd برای پردازش سریع با کارایی بالا از نظر تخصیص منابع، یک رویکرد طراحی ابتکاری نوآورانه را ارایه می‌کنیم. علاوه بر این، ما یک معماری Accelerator underlying را پیشنهاد می‌کنیم که ویژگی‌های pus در جریان پردازش موازی، Pipelined و Buffered را دارا می‌باشد. در این مقاله، یک الگوی تفکیک حافظه آگاه از حافظه نیز برای دستیابی به دسترسی به پهنای باند بالا آمده‌است. پیاده‌سازی این روش با استفاده از روش ما به طور متوسط عملکرد ۶۳۹.۲ GOPS را بر روی Xilinx FPGA ZCU۱۰۲ FPGA به دست می‌آورد. در اشاره به یک پایه شتاب‌ده مرسوم، این کار نشان می‌دهد که بهبود در عملکرد پردازش، در مقایسه با کم‌تر از ۲ / ۲ بهبود یافته توسط سایر آثار موجود در ادبیات، نشان می‌دهد.
ترجمه شده با

سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.