Amazon Alexa和Google Home语言系统的前驱服务者:13个MEMS 麦克风+Zynq SoC

作者:Sleibso ,编译:清风流云

背景:
说到语音识别,吸引的大家关注的有两大主力:亚马逊的Alexa和Google伴的Home。首先说说Alexa,随着智能家居Echo受到热捧,亚马逊的语音私人助手Alexa持续受到消费者关注。Alexa能围绕着信息、天气、新闻、音乐和控制其他家庭设备等内容为消费者提供人工智能语音服务,只是此前如果用户想要体验Alexa则首先需要购买Echo,不过现在用户可以在浏览器中使用体验Alexa了。而在2016年5月和2016年10月,Google两次推出了配置有扬声器的语言助理声控设备Google Home,从外观上来说,Google Home类似一个我们常见的智能家居盒子,功能上,可以让你听音乐,处理很多的任务,比如通过语音控制,Google Home可以通过语音控制你的音响,可以连接到你的灯光、恒温器等等,可以成为家庭的控制中心,只需要跟Google Home对话就可以了。同时谷歌表示,可以与Google Home进行双向对话。

Far-Field 开发平台:
继亚马逊的Alexa和谷歌的Home主页上的语音识别功能之后,语音控制系统变得十分重要。但是在现在这种嘈杂的语言环境中,如何才可以做到可靠的、远场的、强健的准确语言识别呢?关于这个问题, Aaware团队通过他们自己开发的价值199美刀的Far-filed 开发平台给出了完美答案。整个系统中应用到13个MEMS 麦克风(在1维线性或2维数组中可以使用较少的麦克风数),然后通过Xilinx Zynq Z-7010 SoC对初始语音信号进行预滤波,最后将一个纯净的语言数据流传输给本地或云端的语言识别系统进行语言信号识别破解。比较有趣的是,在系统中内建了一个wake 字,类似于“Alexa” 或“OK, Google”,通过这个wake字可以触发语言信号滤波算法单元的执行。

Aaware开发的这套系统中,通过充分应用Zynq Z-7010 SoC系统中的可编程逻辑单元和DSP 处理能力,使得团队的语音捕获技术得以实现的同时并达到加速的效果,这些技术主要包括:

  • 噪声与回音的消除;
  • 语音源头的探测和定位。
  • 更多关于Aaware语言系统的信息可以通过 https://aaware.com/technology 获得。

    总结:
    随着人工智能的发展,模式识别中衍生出更多详细的研究方向和智能控制策略,其中语音识别是最常见的一种控制方式,但是对于语言识别的精确实现却并不容易,往往需要考虑相当复杂的环境因素和语音语义等等因素在内,信号处理算法也较为艰难。Aaware通过FPGA实现语音信号的预滤波对后期语音识别的精确度具有重大意义,但是也仅仅是一些前期工作,相当于一些试水操作,相信在不久之后会有完全由硬件(FPGA)来快速实现语音识别整个系统的设计出现,到那时,在语音识别系统中FPGA 将会发挥更大的作用。

    声明:本文来源于Xilinx Xcell Daily Blog,由创新网赛灵思中文社区编译,转载请注明作者、出处及原文链接