自行科技CTO谌璟博士出席Xilinx开发者大会,FPGA CNN加速设计演讲获高度赞赏!

10月16日,赛灵思开发者大会在北京国际饭店举行。作为业界最权威、最具深度的FPGA交流大会之一,Xilinx把行业最顶尖的FPGA专家和企业汇聚一堂,集思广益,分享和交流FPGA产品开发经验与应用方案,为业内软硬件开发者与设计者提供独到的见解和灵感。Xilinx CEO Victor Peng 、华为IT智能计算业务副总裁张小华、阿里云FPGA异构计算研发总监张振祥等业内领袖出席。同时,在会上,赛灵思推出了业界首款自适应计算加速平台Versal和加速器Alveo,引爆现场。

作为Xilinx在中国智能汽车电子领域唯一的Certified member,深圳市自行科技有限公司(简称:自行科技)受邀参加,公司联合创始人兼CTO谌璟博士在现场分享了“基于FPGA的计算机视觉系统设计与开发”的主题演讲。谌璟博士结合其多年的深度学习与FPGA开发经验,从性能、成本、开发难度等多个维度出发,提出一套系统化的FPGA深度神经网络优化流程,受到了Xilinx AI及边缘计算产品营销总监Nick与机器学习产品营销高级经理Andy等业内专家的高度赞赏。

谌博认为,CNN与FPGA的结合可以组合利用多种算法模块,充分发挥FPGA在计算速度、功耗、成本等方面的优势,降低开发难度与周期,减少开发成本。但是CNN中存在大量冗余计算,因此如何在FPGA中实现CNN加速设计就尤为重要。

自行科技通过多年CNN与FPGA自主研发经验,开发出业内最具性价比的FPGA加速设计方案。会中,她表示,FPGA加速设计需要算法工程师和FPGA工程师共同参与。一方面,通过剪枝压缩、权值压缩等方法对网络压缩算法进行优化,以减少网络冗余计算,释放可用资源。例如,我们可以仅仅将少数“重要”的卷积核量化为8bit权值,其余卷积核用1bit权值表示,构造混合精度网络,在确保网络检测性能的基础上大幅度提高计算效率。另一方面,不同的FPGA架构需要适配对应的CNN网络结构,因此需要有针对性地进行并行化和结构化设计,让计算模块得到充分利用,避免大量计算资源闲置。同时,在进行网络设计时还要充分利用FPGA片内资源,避免DSP计算资源与逻辑资源的浪费。

以SSD网络为例,在不考虑其他操作带来的时延(DDR时延、FSM状态转移时延~等)的情况下,Xilinx zynq7020在CNN计算帧率最高可达5.7fps;但是,自行科技通过权值压缩、并行化设计等CNN网络加速设计和算法优化后,计算帧率提升了4-5倍,大大提高了芯片的运行效率,成为了业内低成本高效率FPGA应用典范!

谌璟博士演讲获得现场嘉宾观众一致好评

最后,谌博总结到:“FPGA与CNN的结合具备广泛的应用前景,但是在开发的过程中也需要我们不断克服困难和挑战。当前FPGA平台技术与工具不断迭代更新,这就需要我们时刻关注世界最前沿的技术。今天我非常高兴在现场见证了业界首款自适应计算加速平台Versal ACAP以及新一代FPGA加速器卡Alveo。这不仅可以加快公司软硬件迭代创新进程,还为我们探索更优秀的FPGA加速方案提供了思路。未来,随着CNN的计算量不断上升,数据吞吐量也会显著增大,这就需要不断提高FPGA片内BRAM资源利用效率,深入研究CNN模型压缩算法,优化基于FPGA的CNN框架,这也需要行业共同的努力!”

目前,该方案已经成功应用于公司的三大产品:前向ADAS系统、驾驶员监控(DMS)系统和智能环视影像系统,产品都已顺利实现量产。基于FPGA平台与CNN算法的深度结合,自行科技率先开发出国内首款基于深度学习技术的驾驶员监控(DMS)系统,打造出业内功能最全面、性价比最高的驾驶员监控(DMS)系统,成为国内驾驶员监控系统标杆企业。

除此之外,自行科技前向ADAS系统与智能环视影像系统以其可靠的目标检测准确性和语义分割精度获得国内众多传统车厂(乘用车与商用车)、新能源和互联网造车公司和Tier1汽车零部件供应商的高度认可。相信随着FPGA开发技术的不断成熟,CNN加速设计将获得更广泛的应用,让我们拭目以待!

推荐阅读