“愿算力与你同在”,用 ASIC 的思路开发 FPGA 应用

前言

这是一个算力不足的年代,这是一个算力重建的年代,破局与重建关乎时代变迁,破局与重建也激发着创新者的斗志。

01、愿算力与你同在:当全世界的电力都用上还不够

“算力”在未来,就像当年的蒸汽机、电力一样,俨然已经是生产力发展的核心要素,也就是说,谁拥有超越别人的“算力”,谁就会拥有更高的生产力和效率,谁也就能在创新上实现真正的突破,成为推动产业和时代进步的原动力。所以“算力”会和“原力”一样成为人们期望拥有的能力。

王韵 - 雪湖科技联合创始人兼 COO

“愿算力与你同在”是雪湖公司的口号,印在了我们的文化衫上。

它致敬了星战里的那句“愿原力与你同在”这句话。熟悉星战的朋友一定知道,“原力”是星球大战里一种超自然的,而又无处不在的神秘力量,是所有生物创造的一个能量场,帮助绝地武士们拥有超越其他人的能力。

5G,AI和AIoT,让所有东西都联网和数字化,使得算力缺口不断扩大,从端侧到云端,数据运算需求呈现指数级增长,都在思考如何打破“算力瓶颈”。也许你会说,可以用CPU和GPU啊?曾经有人算过,不断增长的加速需求全部用GPU来算的话,用上全世界的电力可能也不够,所以光用GPU做加速显然不现实。

在我看来,根据场景不同,将来算力会分布在从云到端的各个环节上。站在这几年非常流行的“上云万能论”的角度来看,有许多场景的需求无法通过云解决,以智能驾驶场景为例,计算结果需要在毫秒级反馈到控制系统,显然云端计算变得不现实。相信FPGA的灵活性可以为更多场景做“算力赋能”。

02、重新定义硬件:为什么要用ASIC的思路做FPGA的应用开发?

我是一个半导体行业的老兵,在芯片原厂工作的十几年里,几乎接触过市面上所有类型的芯片。在这么多的芯片里,FPGA是最特殊的,它“乐高积木”一样的特点让人着迷。

这几年,异构计算和硬件加速是非常值得期待的市场。从当下4000多亿美金全球的芯片市场规模来说,FPGA芯片的60多亿不那么大,但随着ABC(AI,Bigdata,Cloud)和5G的推动,从端到云都可能面临“算不过来”的窘境,这对于擅长做加速的FPGA来说市场潜力极大。按照Gartner的预测,到2025年FPGA芯片市场将增长到125亿美金,非常值得期待。

然而,几十年来,FPGA也一直面临ASIC的竞争。通常认为,客户的产品在达到一定体量后,从成本角度会迁移到ASIC。雪湖科技认为,虽然这样的竞争无法避免,但如果能把“Crossover Point (交叉点)”往右边延伸(如下图1),那就能扩大FPGA应用市场的空间,充分受益于异构计算强大的算力优势。所以雪湖科技选择“用ASIC的思路去做FPGA开发”,在应用开发的过程中,珍惜一点一滴的计算资源,从时间利用率和空间利用率上做优化,最终通过提升FPGA的资源使用率来提升应用端加速性能。而这样给客户带来的价值就是,因为性能提升延长了成本切换的时间点,让一部分原本ASIC的市场变成FPGA的市场。即使在云端也是一样,性能的极致优化和提升可以为客户提升TCO,剩下大把的成本,可以用来专注于提升云端的服务能力。

雪湖CEO张强在FPGA数值计算加速领域经验丰富,曾经参与过微软基金会的创新项目“激光打蚊子”,在Vertex2PRO上实现了每秒钟处理500帧图片,每张图片识别4096只蚊子的惊人效果,而这一些都是通过对计算资源极致优化来完成的。雪湖已经拥有40位FPGA开发者人员,秉承“用设计ASIC的思路做FPGA的开发”的理念,已经成功在人工智能,智能驾驶,数据中心和高性能计算领域完成布局。

图1 FPGA方案和ASIC方案成本比较 (出处:兴业证券 《FPGA行业深度报告》)

03、Wide and Deep 加速器:算法懂你,还得懂赚钱

提升算力的关键,首先一定是硬件的提升,FPGA的低延迟及高吞吐相对GPU有绝对的优势,因此越来越多的企业意识到了这一点,已经开始率先使用FPGA来提升算力。

在赛灵思开发者大会XDF 2019上,阿里云的 FPGA 异构计算负责人张振祥也说,在今年优酷的国庆阅兵直播,以及天猫双十一晚会直播,阿里云都采用了 FPGA的转码方案。我们了解到,天猫双十一的图片转码也都是用FPGA做的。这里可以看出一个趋势,FPGA还会随着双十一销售额交易量的攀升得到更为广泛的运用。可以预见,FPGA在互联网基础业务领域有很多应用场景。

雪湖也有幸参与到了本届XDF,并且与赛灵思共同推出了基于赛灵思Alveo U200加速卡实现的“Wide and Deep广告推荐算法加速解决方案”,相较于CPU服务器,基于FPGA加速器打造的这一解决方案,将吞吐量提高了3~5倍,加上功耗更低,其TOC(总体拥有成本)是CPU云的5倍以上。

图2 FPGA vs CPU 基于FPGA的推荐算法性能比较(出处:雪湖科技)

推荐系统是互联网公司运营的核心,内容推荐会影响留存,转化和成交转化;广告推荐会直接影响点击率(CTR),进而影响广告收入。看到互联网公司对广告投放、内容点击率的痛点,我们开发了基于FPGA的广告推荐加速器。

推荐系统中,CTR(Click-Through-Rate,点击率)至关重要,在云音乐推荐的“今日歌单”,抖音上的短视频,购物APP的“猜你喜欢”等场景中,CTR值反映的是推荐系统的准确率,他影响着用户是去是留,也决定着互联网企业的广告收益。

为了达成精准的推荐和投放,2016年,谷歌提出了“Wide and Deep”算法模型,现在已经被Facebook、Youtube等国际领先的互联网公司广泛使用。考虑到部署于GPU的成本高,这一算法以往采用CPU来加速,但性能并不理想。在这个背景下,我们与赛灵思针对数据中心广告推荐算法加速推出“Wide and Deep算法推荐系统”高性能解决方案。

在完成推荐过程时,我们会根据用户信息提取用户自画像和商品属性,输入到模型,再根据相应算子得出最终结果。基于赛灵思U200构建出的“Wide and Deep”加速器,能够根据模型API制作出雪湖科技API,再由自研发的工具包将模型和数据转换为可由FPGA处理的数据,从而快速计算出结果。

将结果进行处理和排序后,也就是我们日常可见的推荐界面了。由于不同的用户有不同的个人信息和喜好,经过模型计算也会有不同的结果,也就对应出不同的推荐内容。

另外,考虑到大型推荐系统的上线都是通过云端部署,同时用在线和离线方式更新模型。除了U200加速卡,我们同样支持Wide and Deep在阿里云FPGA服务器F3(FPGA:赛灵思 VU9P)上的部署应用,用户可以通过镜像文件部署。根据最近的更新数据显示,模型精度损失可控制在2/100000。当模型更新时,通过雪湖科技提供的专有工具可直接载入模型参数,可做到一键式更新模型参数。

目前,互联网公司在算法推荐上的需求持续增长,在让企业看到FPGA的性能预期之外,我们还希望通过这些操作上的便利,能提供到奉行最小可行性测试的互联网行业最为喜闻乐见的方案,让他们能低成本地拥抱变化,进一步满足人们‘听我想听’、‘看我想看’、‘买我想买’的‘懒惰’需求,另一维度上,广告主的带货KPI能被更高效的完成,企业的广告售卖单价能够提升,FPGA的价值也就体现了。

除了推荐算法,雪湖对于硬件加速和算力提升的探索还在继续,“愿算力与你同在”!

关于作者

王韵,雪湖科技联合创始人兼COO,日本国立九州大学硕士,师从著名产业经济学家山崎朗。半导体行业老兵,在该领域拥有超过15年工作经验。曾服务于全球500强日本富士通集团,任职亚太区高管负责半导体芯片的市场营销业务。

点击 “这里”免费下载 Wide&Deep 白皮书

推荐阅读