DSP48E2

视频:在 DSP48E2 Slice 中使用开方多路复用器

本视频介绍如何在 UltraScale 架构 DSP48E2 slice 中使用开方预加法器输出的新功能。本视频将介绍当在 Vivado HLS 中实现平方差异累积函数时如何使用开方多路复用器。

白皮书(WP487):8 位点积加速

UltraScale和UltraScale +器件中的DSP架构通过具有可扩展性能的INT8矢量点积增强了神经网络的卷积和矩阵乘法吞吐量。 借助本白皮书中描述的方法,与传统原生DSP资源的使用相比,吞吐量可以提升1.75到2倍。

如何在 UltraScale 架构 DSP48E2 slice 中使用最新广泛多路复用器产品反馈功能。本视频将介绍如何使用随 Vivado Design Suite 2016.1 提供的 verilog CMACC 模板实现、复杂乘积累加函数。

利用赛灵思器件上的INT8优化开发嵌入式视觉

作者:Yao Fu、Ephrem Wu、Varun Santhaseelan、 Kristof Denolf、Kamran Khan 和 Vinod Kathail

赛灵思 INT8 优化为使用深度学习推断和传统计算机视觉功能的嵌入式视觉应用提供最优异的性能和能效最出色的计算方法。与其他 FPGA DSP 架构相比,赛灵思的集成 DSP 架构在 INT8深度学习运算上能实现 1.75 倍的解决方案级性能。

概要

利用Xilinx器件的INT8优化开展深度学习

作者:Yao Fu、Ephrem Wu、Ashish Sirasao、Sedny Attia、Kamran Khan 和 Ralph Wittig

赛灵思 INT8 优化为深度学习推断提供了性能最佳、能效最高的计算技术。赛灵思的集成式 DSP 架构与其他 FPGA DSP 架构相比,在INT8 深度学习运算上能实现 1.75 倍的解决方案级性能。

概要
本白皮书旨在探索实现在赛灵思 DSP48E2 Slice 上的 INT8 深度学习运算,以及与其他 FPGA 的对比情况。在相同资源数量情况下,赛灵思的 DSP 架构凭借 INT8在 INT8 深度学习每秒运算次数 (OPS) 上相比其它 FPGA,能实现 1.75 倍的峰值解决方案级性能。由于深度学习推断可以在不牺牲准确性的情况下使用较低位精度,因此需要高效的 INT8 实现方案。

本白皮书探讨将 INT8 运算用于实现在赛灵思 DSP48E2 片上、使用深度学习推断和计算机视觉功能的嵌入式视觉应用,以及这种方案与其他FPGA 的对比。与占用相同资源数量的其他 FPGA 相比,赛灵思的 DSP 架构对 INT8 乘法累加(MACC) 运算能实现 1.75 倍的峰值解决方案级性能。由于嵌入式视觉应用可以在不牺牲准确性的情况下使用较低位精度,因此需要高效的 INT8 实现方案。赛灵思的 DSP 架构和库针对 INT8 运算进行了精心优化。本白皮书介绍如何使用赛灵思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同内核权重的同时处理两个并行的 INT8 MACC 运算。本白皮书还阐述了要运用赛灵思这一独特技术,为何输入的最小位宽为 24 位。此外本白皮书还详细介绍了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算术运算使用。另外还提供在深度学习领域或其他计算机视觉处理任务领域如何将这些功能用于嵌入式视觉的实例。

同步内容