语音识别

深鉴科技于国内领先公有云服务商华为云发布语音识别加速引擎DDESE——DeePhi Descartes Efficient Speech Recognition Engine,即深鉴科技笛卡尔架构高效语音识别引擎。该方案在亚马逊AWS发布之后,迅速移植上线国内公有云市场。以语音识别为应用载体,对AI类应用推理计算进行全面加速。成为目前国内公有云市场上,首款基于FPGA平台的原创深度学习语音识别加速解决方案。

近年来,云端业务发展日新月异,市场对底层硬件架构提出更高性能的要求,而FPGA的可定制化和多功能的灵活特性,与云端灵活、复杂、多变的需求“不谋而合”,继而在全球云端业务中广泛加快布局。而国内著名公有云服务商华为云顺应趋势,开发FPGA加速服务,应用场景覆盖基因分析、视频/图片处理、深度学习、加解密、大数据等多个领域,于2018年4月30日正式商用。聚焦基因测序、视频处理和图像处理三大场景,为企业提供极致、易用、专业的FPGA加速云服务。

语音识别现状与工程师必备技能

作者:陈孝良

目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。

随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。

学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的,一个是就是端到端的语音识别系统,另外一个就是G.E. Hinton最近提出的胶囊理论,Hinton的胶囊理论学术上争议还比较大,能否在语音识别领域体现出来优势还值得探讨。

端到端的语音识别系统当前也没有大规模应用,从理论上来看,由于语音识别本质上是一个序列识别问题,如果语音识别中的所有模型都能够联合优化,应该会获取更好的语音识别准确度,这也是端到端语音识别系统的优势。

CNN在语音识别中的应用

作者:侯艺馨

前言

总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

作者:stark

深鉴科技(DeePhi Tech)由斯坦福与清华大学的深度学习硬件加速研究者创立,致力于为全世界提供更便捷、更高效、更经济的深度学习平台解决方案。人工智能是现在最热门的领域,最为该领域的一匹黑马,深鉴科技凭借原创技术实力不仅获得了资本的认可也获得了市场的欢迎,与Xilinx、亚马逊、蚂蚁金服、国家电网、搜狗搜索等公司保持着密切的合作。在近期举办的深鉴发布会上发布了多款神经网络(NN)相关硬件和软件产品,其中一款就是基于亚马逊AWS EC2 F1实例的自动语音识别加速系统DP-S64 ASR。

图1:深鉴发布DP-S64自动语音识别加速方案

图1:深鉴发布DP-S64自动语音识别加速方案

ESE:在 FPGA 上提供稀疏 LSTM 的高效语音识别引擎

FPGA2017 最佳论文奖得主以一款 FPGA 加速的高效语音识别引擎实现了突破性成果,该引擎与 CPU 相比,可实现 43x 的性能,40 倍的单位功耗性能;与 GPU 相比,可实现 3 倍的性能和 11 倍的单位功耗性能。

作者:清风流云

背景:
与机器进行语言交谈,让它听明白你在说什么,语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比机器的听觉系统,该技术让机器可以通过识别和理解,把语音信号转变为相应的文本或命令。自1952年贝尔实验室研制出世界上第一个能识别10个英文数字发音的实验系统,到如今,语音识别技术有了突破性的发展,不再局限于识别孤立词的识别,现在,可以实现连续的多语言的实时识别。在现实生活中,语音识别的产品也已经变得十分普遍,比如iPhone手机自带的Srir应用软件,google基于安卓系统开发的google Now以及百度语音和微软开发的十分调皮的Cortana语音识别软件。不过,目前市场上流行的都是软件实现的语音识别,下面将介绍一款基于FPGA实现的可应用于语言识别板卡。

MATRIX Voice语音识别平台:

当今社会,多媒体的广泛应用和信息时代的到来使得人们的日常生活方式发生了天翻地覆的变化,他们越来越需要改善自己的生活质量,随着生活节奏的快捷化以及便携式消费电子产品的日益普及,人们家庭消费电子终端产品提出了越来越高的要求,现代人们在日常生活和休闲娱乐中追求的一个明显的趋势是新型人机交互方式如动作识别、语音识别等技术。但同时,由于其技术复杂度高、环境影响因素多而且大、数据处理量大、成本高,研发速度和研发水平等受到严重的制约。
目前,在PC机上,语音识别技术已经获得了一定的进步,在关键词的识别已经很不错了,我们可以在很多多媒体产品、人机交互产品中找到其踪影,下面我主要是想来跟大家分享一下实现在SOPC的基础上构建一个智能的识别系统。我就实际问题来引入我们的探讨。下面我想实现一个帮助家庭实现婴幼儿智能监护功能的系统,我想,这是有一定实现意义的,可能这也只是我的陋见,希望大家多多指导。

同步内容