网络压缩 | FPGA 开发圈

【网络压缩六】深度压缩

demi 在周四, 10/31/2019 - 09:43 提交

这篇论文来自作者韩松，是一篇经典的网络压缩论文，获得了ICLR2016最佳论文。它主要结合了剪枝，量化和霍夫曼编码的方法，将卷积神经网络的权重大大的压缩了，而且用于FPGA的部署。

【网络压缩五】降维分解

demi 在周二, 10/29/2019 - 11:03 提交

在上一篇介绍了如何将高维度卷积核拆分成低维度小卷积核，从而降低计算量的方法。本篇介绍的也是采用了降维的思想来加速网络推理，但是数学上采用了不同的方法。而且这篇文章提出的方法可以加速深度网络，其在vgg-16上进行了实验，获得了4倍的加速效果，而在imageNet分类中top-5错误率仅有0.3%升高。

【网络压缩四】CP分解

demi 在周四, 10/24/2019 - 13:54 提交

在CNN网络中卷积运算占据了最大的计算量，压缩卷积参数可以获得显著的硬件加速器的性能提升。在即将介绍的这篇论文中，作者就是通过张量的降维来降低卷积计算量的。作者通过CP分解将一个4D张量分解成多个低维度的张量，并且最后通过微调参数来提升网络精度。

网络压缩三：知识蒸馏

demi 在周三, 10/23/2019 - 17:22 提交

知识蒸馏的方法是大名鼎鼎的Hinton提出的，这种方法实现了大网络向小网络的知识迁移，使得应用场景可以扩展到移动端。本文我们具体看看知识蒸馏的整个过程。

网络压缩二：向量压缩方法

judy 在周二, 08/06/2019 - 11:17 提交

这篇文章介绍一种不同于针对压缩单个权重的方法：多个权重数据组合为向量，将向量视为一个整体，映射到其他向量空间，完成压缩。作者在resnet-50上做了实验，将100MB权重压缩到了5MB（实现了20倍压缩比例），同时在imageNet上测试的top-1精度保持的很好（76.1%）

网络压缩一：二值化网络

judy 在周一, 08/05/2019 - 09:53 提交

网络压缩在AI加速中可以说起到“四两拨千斤”的作用，网络参数的减小不仅仅降低了存储和带宽，而且使计算逻辑简单，降低了LUT资源。从本篇开始，我们就一起挖掘一下网络压缩算法的类型，原理，实现，以及效果。写这类算法类文章，一是学习，二是希望能够令更多做FPGA的人，不再将眼光局限于RTL，仿真，调试，关心一下算法，定会发现FPGA的趣味和神通

每日头条

产品升级！亚科鸿禹推出更大规模验证容量的融合Emulator--HyperSemu2.0！

HyperSemu2.0为用户提供近2亿门验证容量和稳定高效的系统运行，满足更前沿数字设计更多维验证场景的应用需求。

第二代 Versal Prime 系列适合嵌入式系统设计的五大原因

AMD 第二代 Versal Prime 系列自适应 SoC 兼具性能和效率，具备更高水平的标量性能和世界领先的可编程逻辑，可实现出色的灵活设计。

五项功能可提升边缘端嵌入式 AI 性能

AI 驱动型系统正催生指数级算力需求，使得在紧凑的空间和功率限制内设计嵌入式应用变得更具挑战性。设计人员需要支持嵌入式 AI 系统中的所有计算阶段

如何在Vivado中用工程模式使用DFX流程

本文介绍在Vivado中用工程模式使用DFX流程以及需要注意的地方。

第二代 AMD Versal™ 自适应 SoC 助力 AI 驱动型嵌入式系统实现单芯片智能性

AMD 第二代 Versal AI Edge 系列和第二代 Versal Prime 系列自适应 SoC 为 AI 驱动和经典的嵌入式系统提供了单芯片智能性实现性能

如何使用DFX的Abstract Shell Flow

在使用DFX流程时，有用户希望在完成初始Configuration的Implementation之后，能加速后续RM的实现过程

Versal裸机使用AI Engine的完整流程

有很多文档都描述了AI Engine的架构和性能参数，但是看完这些后，现实中遇到的问题最多的是这个AI Engine到底怎么用

SWDT在Versal中的应用

系统看门狗定时器（System WatchDog Timer）通常用于嵌入式系统，可以有效的防止软件错误、系统死锁、篡改以及意外行为