利用Xilinx的DSP Supertile降低CNN50倍延时-腾讯联合Xilinx在FPL发表长文

cathy 在周五, 09/20/2019 - 12:28 提交

密集型计算正使用于有多个深度学习工作负载的数据中心。为了平衡计算效率、性能和总体拥有成本（TCO），使用具有可重配置逻辑资源的现场可编程门阵列（FPGA）提供可接受的加速能力，并与云中的各种计算敏感任务兼容。在本文中，我们开发了一个 FPGA 加速平台，该平台利用统一的framework架构，在数据中心实现通用卷积神经网络（CNN）推断加速。为了克服计算限制，4,096个DSP阵列用于不同类型卷积的超级单元（supertile units, SU），其在500MHz下提供高达4.2 TOP/s 16位定点性能。本文提出使用交织任务调度方法在SU间映射计算，并且通过调度 - 组装缓冲模型和广播高速缓存来解决存储器限制。对于各种非卷积运算符，设计滤波处理单元用于通用filter-like/pointwise运算。在实验中，我们比较了在服务器级CPU、GPU和 FPGA 上运行的 CNN 模型性能。结果表明，我们的设计实现了最佳 FPGA 峰值性能和与数据中心最先进 GPU 同级别的吞吐量，延迟降低了 50 倍以上。

关于supertile技术，大家可以参考paper原文引用文章中的第22篇“A high-throughput reconfigurable processing array for neural networks”

来源：Xilinx学术合作

DSP Supertile

CNN

每日头条

第二代 AMD Versal™ 自适应 SoC 助力 AI 驱动型嵌入式系统实现单芯片智能性

AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列自适应 SoC 为 AI 驱动和经典的嵌入式系统提供了单芯片智能性实现性能

如何使用DFX的Abstract Shell Flow

在使用DFX流程时，有用户希望在完成初始Configuration的Implementation之后，能加速后续RM的实现过程

Versal裸机使用AI Engine的完整流程

有很多文档都描述了AI Engine的架构和性能参数，但是看完这些后，现实中遇到的问题最多的是这个AI Engine到底怎么用

SWDT在Versal中的应用

系统看门狗定时器（System WatchDog Timer）通常用于嵌入式系统，可以有效的防止软件错误、系统死锁、篡改以及意外行为

AMD的AI芯片战略

AMD首席执行官苏姿丰和计算与图形部门高级副总裁/总经理 Jack Huynh 均回答了行业分析师提出的有关 AMD 人工智能硬件战略的性质以及如何看待其产品组合的问题

MMCM/PLL的phase shift mode对STA的影响

在 AMD FPGA 中，当 MMCM 或 PLL 原语的输出时钟属性 CLKOUT*_PHASE 非零时，通常会引入时钟相移。

AI时代，HBM掀起存储芯片新浪潮

AI热潮造就GPU繁荣的同时，也让扮演关键角色的HBM热度高居不下，成为当前AI赛道的新兴爆发风口

MathWorks 宣布推出 MATLAB 和 Simulink 的 2024a 版本

更新后的 Satellite Communications Toolbox 支持场景建模以及通信系统和链路分析

【网上研讨会】：采用基于 Python 和神经网络的 Edge AI 加速可预测性维护的实现	AMD 助力新干线运营商 JR 九州 AI 轨道检测解决方案	世界顶尖名校与科技大咖星光闪耀：Xilinx 自适应计算集群重磅发布
Supermicro推出多款基于全新AMD EPYC™ 8004系列处理器的密度和功耗优化边缘平台	Xilinx 为诊断和临床提供的医疗保健解决方案——机器人辅助手术	瑞萨电子推出ClockMatrix助力基于5G的AMD Zynq UltraScale+™ RFSoC套件时序

利用Xilinx的DSP Supertile降低CNN50倍延时-腾讯联合Xilinx在FPL发表长文

最新文章

最新文章