从Tutorial到最佳论文:看深鉴科技如何闪耀FPGA2017

世界顶级FPGA会议——FPGA2017在落幕之时传来了一个令人振奋的消息:深鉴科技的ESE语音识别引擎的论文获得了本次会议唯一的最佳论文(Best Paper Award)。

图1:深鉴科技和英特尔受邀为FPGA2017做Tutorial报告

图1:深鉴科技和英特尔受邀为FPGA2017做Tutorial报告

FPGA,作为FPGA领域最具影响力、历史最悠久的学术会议,始终引领着整个FPGA工业界的技术创新。在深度学习浪潮席卷全球的今天,FPGA 2017特别增设了一个环节:The Role of FPGAs in Machine Learning(FPGA在机器学习领域所扮演的角色),并邀请了两家公司,英特尔与深鉴科技,共同致会议Tutorial。成立不足一年,深鉴科技已得到FPGA学术界的高度认可。

图2:韩松在大会做关于高效深度学习的Tutorial

图2:韩松在大会做关于高效深度学习的Tutorial

图3:韩松报告提纲:迈向全面高效的深度学习

图3:韩松报告提纲:迈向全面高效的深度学习

在Tutorial中,韩松从算法、硬件、训练、推理四个维度,对于深度学习算法的训练与应用两方面如何变得更加高效进行了阐述。韩松提出的“先压缩、再加速”的深度学习推理方案,比“训完即用”的推理方案更快、更节约功耗。

图4:上图:传统的“训完即用”的机器学习推理方案<br />
下图:韩松提出的“先压缩、再加速”的机器学习推理方案

图4:上图:传统的“训完即用”的机器学习推理方案
下图:韩松提出的“先压缩、再加速”的机器学习推理方案

本次会议,深鉴的论文《ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA》得到录用并最终被评选为本次大会的唯一最佳论文。该项工作聚焦于使用LSTM进行语音识别的场景,结合深度压缩以及专用处理器架构,使得经过压缩的网络和未经压缩的网络相比实现6倍的性能提升。本文所描述的ESE语音识别引擎也是深鉴科技RNN处理器产品的原型。

图5:最佳论文颁奖

图5:最佳论文颁奖

“耳听为虚,眼见为实”,难得的是,此篇论文绝不仅仅停留在仿真与模拟结果阶段,而是落在了实实在在的演示系统上。会场外,基于ESE语音识别引擎的深鉴语音识别平台进行了现场展示,得到了参会教授与工业界人士的极大关注——使用Xilinx KU060 FPGA与NVIDIA GTX 1080 GPU运行一个实际应用的LSTM现场对比,深鉴FPGA方案稳定的保持了超过GPU六倍以上的性能。这就意味着,处理相同的语音识别任务,处理延迟大大降低,用户体验能有明显的提升。此项工作的开展得到了搜狗与Xilinx的大力支持,使得深鉴能够基于业界领先的商用的语音识别算法模型与数据,实现模型压缩,提升硬件性能。

图6:深鉴CTO单羿(左图)与CEO姚颂(右图)现场向与会专家展示深鉴语音识别平台

图6:深鉴CTO单羿(左图)与CEO姚颂(右图)现场向与会专家展示深鉴语音识别平台

深鉴科技成立于2016年3月,虽然公司仅注册成立不到一年时间,但早在2013年,来自清华大学和斯坦福大学的几位公司创始人就开始了深度学习相关的学术研究。2015年深度学习顶级会议NIPS上,斯坦福大学在读博士、深鉴科技首席科学家韩松提出利用剪枝和权重共享的方式对modern deep neural network在不损失网络精度的前提下大幅度降低计算和存储资源消耗,深鉴科技的初创成员也从此迈出了学术到产品转化的第一步。公司聚焦于稀疏化神经网络处理得技术路线,提出的Deep Compression算法可以将模型尺寸压缩数十倍大小而不损失预测精度,并结合专用的深度学习处理架构来实现加速。ICLR2016和FPGA2017两篇最佳论文的获奖,证实深鉴科技所聚焦的稀疏化技术路线越来越得到深度学习界的认可。

全球各知名技术创新公司在战略层面积极的布局人工智能生态,准备快速切入市场。深鉴科技所专注的事情既有基础架构,又有网络优化工具,同时提供包括算法的完整解决方案,填补了算法到高效硬件之间的鸿沟。学术上的持续创新、产品方案上的不断完善,已让学术界和工业界为之赞叹,鲜有人知,这背后是写字楼彻夜点亮的灯光和代码行间流淌着的汗水。“一桥飞架南北,天堑变通途”,深鉴的勇士正在开辟一条通畅之路,让人工智能高效落地,让每个人感受到“科技,从未如此之近”。

文章来源:深鉴科技微信公众号(微信号:DEEPHI-TECH)