Alveo助力快手打造核心业务技术护城河

项目介绍

ASR 是电子商务、短视频、直播等众多应用的核心技术之一。在快手,ASR 有许多应用场景,是快手 APP、直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。

目前,ASR 已成为快手各种创新服务的核心技术之一。从广受播主们喜爱的直播间小快机器人(语音助手),到快手 APP 语音搜索、直播间语音输入法、语音魔法表情,再到一甜相机实时字幕、快影自动字幕服务等,ASR 正助力快手为全球数亿用户带来前所未有的创新体验。

快手将赛灵思 Alveo 加速器卡应用于 ASR 服务,是 FPGA 在国内大规模直播及短视频自动语音识别场景落地的首个成功案例。2021年中以来,优化的ASR 服务已经在快手直播及短视频应用平台广泛部署,目前有数亿用户正在享受其所带来的前所未有的语音识别体验。

项目挑战

需要一个可以完全定制的专用平台,能通过软硬件协同设计确保精度符合各种不同业务的标准。

在快手之前基于CPU框架的处理流程中,特征提取等前处理模块运行时间占比约为 5%~10%, TDNN+LSTM 声学模型运行时间占比约为 60%~80%,而包含语言模型的解码器部分运行时间占比约为 15%~30%。

快手异构计算中心团队认为,以 TDNN+LSTM 为主结构的流式声学模型优化的关键痛点有三个,那就是时延(Latency)、实时率(RTF,Real Time Factor)和并发数(Concurrency),具体而言需要解决如下问题:

  • 缩短时延,为用户提供实时的流式语音识别ASR体验。
  • 提高并发数,保障海量流式数据并发处理的带宽需求。
  • 提供灵活性及易用性,满足现有多业务模型的特点。如可以同时运行多个模型,可以多模型实时任意切换,且能满足未来模型的升级换代。
  • 降低单位算力成本,实现更低总拥有成本。
  • 满足AI 算法的高精度需求。
  • 此外,快手对GPU 进行了评估,发现其硬件使用率比较低,不能满足RTF需求,SRAM 容量也无法满足TDNN+LSTM模型高并发性的需求。

    解决方案

    Alveo U50 数据中心加速器卡基于赛灵思高性能 UltraScale+ 架构,采用高效的 75 瓦小型封装,而且配备了 100 Gbps 网络 I/O 和高带宽内存。这些特性为快手的 ASR 解决方案提供了关键的低功耗、高带宽、大 SRAM 内存和小尺寸优势。而Alveo U50LV (Low Voltage)则是 U50 系列的低电压版本,和标准电压版本相比,功耗更低,散热要求更少。

    快手各种器件选型比较

    结合公司自研的定点通用推理框架和定点 C 模型,快手基于Alveo U50LV 及赛灵思相关 Vitis HLS 高层次综合及 Vitis Design Flow,从算法、系统、软件和硬件等多个关键层面对ASR 系统进行了多方位的创新, 应用了多项最先进的优化技术。

    设计成效

    借助赛灵思 Alveo 加速卡及相关设计工具,快手最终实现了针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案,全面优化了 ASR 服务,实现了:

    1. 大幅减轻了CPU 的工作负载,将单台服务器并发路数提升 7.5 倍。

    2. 大幅降低了端到端时延,平均缩短达 37.67% 。

    3. 大幅缩减了系统总成本,降至0.29 (相当于总成本锐减 71% )。

    4. 大幅缩短了开发周期。通过采用OpenCL实现了与现有业务无缝集成,并借助 Vitis Design Flow将设计周期从3个月减少到6周。

    “我们认为理想的 ASR 加速解决方案,是可以支持高带宽、大 SRAM 和定点推断的硬件平台,赛灵思的 Alveo FPGA U50LV 完全符合我们的要求。”——刘凌志博士,快手异构计算中心负责人

    12 月 9 日,在 Xilinx Adapt – 中国站数据中心专场,快手异构计算团队高级工程师杨超将讲解快手与赛灵思的合作案例,欢迎点击下方图片报名。

    扫描下方二维码锁定座位吧!

    最新文章