项目介绍
ASR 是电子商务、短视频、直播等众多应用的核心技术之一。在快手,ASR 有许多应用场景,是快手 APP、直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。
目前,ASR 已成为快手各种创新服务的核心技术之一。从广受播主们喜爱的直播间小快机器人(语音助手),到快手 APP 语音搜索、直播间语音输入法、语音魔法表情,再到一甜相机实时字幕、快影自动字幕服务等,ASR 正助力快手为全球数亿用户带来前所未有的创新体验。
快手将赛灵思 Alveo 加速器卡应用于 ASR 服务,是 FPGA 在国内大规模直播及短视频自动语音识别场景落地的首个成功案例。2021年中以来,优化的ASR 服务已经在快手直播及短视频应用平台广泛部署,目前有数亿用户正在享受其所带来的前所未有的语音识别体验。
项目挑战
需要一个可以完全定制的专用平台,能通过软硬件协同设计确保精度符合各种不同业务的标准。
在快手之前基于CPU框架的处理流程中,特征提取等前处理模块运行时间占比约为 5%~10%, TDNN+LSTM 声学模型运行时间占比约为 60%~80%,而包含语言模型的解码器部分运行时间占比约为 15%~30%。
快手异构计算中心团队认为,以 TDNN+LSTM 为主结构的流式声学模型优化的关键痛点有三个,那就是时延(Latency)、实时率(RTF,Real Time Factor)和并发数(Concurrency),具体而言需要解决如下问题:
此外,快手对GPU 进行了评估,发现其硬件使用率比较低,不能满足RTF需求,SRAM 容量也无法满足TDNN+LSTM模型高并发性的需求。
解决方案
Alveo U50 数据中心加速器卡基于赛灵思高性能 UltraScale+ 架构,采用高效的 75 瓦小型封装,而且配备了 100 Gbps 网络 I/O 和高带宽内存。这些特性为快手的 ASR 解决方案提供了关键的低功耗、高带宽、大 SRAM 内存和小尺寸优势。而Alveo U50LV (Low Voltage)则是 U50 系列的低电压版本,和标准电压版本相比,功耗更低,散热要求更少。
快手各种器件选型比较
结合公司自研的定点通用推理框架和定点 C 模型,快手基于Alveo U50LV 及赛灵思相关 Vitis HLS 高层次综合及 Vitis Design Flow,从算法、系统、软件和硬件等多个关键层面对ASR 系统进行了多方位的创新, 应用了多项最先进的优化技术。
设计成效
借助赛灵思 Alveo 加速卡及相关设计工具,快手最终实现了针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案,全面优化了 ASR 服务,实现了:
1. 大幅减轻了CPU 的工作负载,将单台服务器并发路数提升 7.5 倍。
2. 大幅降低了端到端时延,平均缩短达 37.67% 。
3. 大幅缩减了系统总成本,降至0.29 (相当于总成本锐减 71% )。
4. 大幅缩短了开发周期。通过采用OpenCL实现了与现有业务无缝集成,并借助 Vitis Design Flow将设计周期从3个月减少到6周。
“我们认为理想的 ASR 加速解决方案,是可以支持高带宽、大 SRAM 和定点推断的硬件平台,赛灵思的 Alveo FPGA U50LV 完全符合我们的要求。”——刘凌志博士,快手异构计算中心负责人
12 月 9 日,在 Xilinx Adapt – 中国站数据中心专场,快手异构计算团队高级工程师杨超将讲解快手与赛灵思的合作案例,欢迎点击下方图片报名。
扫描下方二维码锁定座位吧!