2022年3月,作为国内领先的AI芯片设计企业,燧原科技正在研发的新一代芯片即将进入仿真验证阶段,这是整个芯片研发过程中,算力需求最大的环节之一。算力波峰如果达到几万核,常规上,要在一周甚至一天内加设百台级的服务器。
但疫情期间,新的机器根本进不来,常规的算力补充路径被彻底阻断。一场漫长的拉力赛即将抵达终点,如何在最后关头,安全平稳地冲线?
腾讯云的仿真混合云平台就是这个“加速键”。
传统的芯片设计模式,是由企业自己采购设备,但芯片设计业务本身对于算力的需求不恒定,IT团队很难通过自购设备来满足。
买多了,会出现设备闲置,买少了,算力又不能完全满足。而且,芯片研发需要的是高性能的先进计算资源,如果要一直更新机型,负担很重。
与此同时,芯片产品的生命周期在缩短,也要求芯片设计企业要缩短产品的开发时间,加速产品上市以获得更多的市场机会。市场环境变化之下,芯片设计企业对于算力的需求急剧上升,它成为衡量芯片开发速度的指标。
要快速、灵活地获取海量高性能计算资源,云计算是一个不错的选择。不同阶段的差异化算力匹配、更多元的环境部署模式,都是云计算的长项。
然而,做第一个吃螃蟹的人,并不容易。要在如此关键的项目上做“实验”吗?更何况,大芯片研发上云,国内尚无先例。
燧原科技找到了腾讯云,他们试探性地问:能否把所有的存储放在本地,只在需要弹性算力的环节使用云?这个要求偏个例,因为通常情况下,数据中心都会将存储和计算资源部署到一起。
腾讯云能理解燧原这个需求,因为芯片设计企业最核心的就是各种芯片代码和知识产权,相比于很多行业,他们对数据安全有着更高的要求。
随后的几个月,腾讯云、速石与燧原一起,搭建了“存算分离”芯片仿真混合云平台。为此,腾讯云提供足够多的算力机型,在需要弹性算力时,根据业务作业的不同类型,配置相应的算力资源。
速石平台的云原生调度器,则能在不改变用户的使用习惯,让使用者无感地调用云资源,减少上云的学习成本。
而为了进一步提高安全性,在传输层面,一条连接腾讯云和燧原的超大带宽的专线拉起,保证传输通道安全可信。同时,腾讯云的iOA方案,可确保终端的安全、信息的保护。
“我们整个项目对于算力有非常迫切的需求。这是我们上云的一个契机。”燧原科技项目负责人Eli回忆,在解决了数据安全的顾虑后,他们决定大胆一试。
芯片仿真需要大量算力,但波峰会达到多高,项目组也无法精准预估。从某种意义上来说,这是一场“未知之战”。
芯片仿真混合云平台于6月正式上线,在9月算力迅速爬升的势头已经显露。10 月,算力达到初始规划的数倍。11月,算力继续爬升。算力“爆炸”背后,是一个关键的环节——芯片各项功能的一致性验证。
“所有的模块要在同一时刻冲上岸边。”整个验证过程,就是无数次被凶猛的“海浪”敲到呼吸困难的尝试。研发团队小时级的待命,一旦发现问题,马上找问题,修复。
每一次系统报错后,他们就要经历一场或大或小的排查:网络、云、存储还是调度器的问题?在最关键的时刻,三方人员进行了长达两周的7x24 小时轮班值守。每天晚上10点,上海、深圳、北京、杭州的业务人员要开例会,复盘当天遇到的状况。
经过不断的改进调优,平台最终做到充分的并行作业,在两分钟时间里即能快速完成服务器交付,小时级别完成研发环境交付。研发在晚上提交的作业,次日早上就能收到结果,为一次又一次的“冲刺”最快速度集结力量。
最终,经过16天*24小时的轮班值守,燧原科技在“加速键”的加持下,提前冲过了“终点线”。
长达八个月的实战后,燧原看到了一张成绩单:总体任务并发量通过云端弹性同步提高,缩短仿真周期30%~50%,节省了可观的IT投入的综合效益。
燧原科技上云的成功,为行业提供了上云场景的新认知,成了芯片企业一个可复制的案例。
“存算分离的混合云方案,在后续几个月的项目中,也有别的客户跟腾讯云一起采用了,甚至在区域选择上大家都有一定的参考。这个存算方案是一种场景。比如,我们在上海有一些芯片设计公司,但是可能也会碰到在北京或者深圳的设计公司,这个方案是可以平移的,我们会在选址和整套技术栈的搭建上会有一套很好的方案。”速石科技技术总监陈琳涛说道。
芯片仿真云本身专业属性很强,并不能用一套通用的方案和架构搞定。一开始看起来“别扭”的存算分离的方案,事后证明对这类芯片企业才是最优解。它减少了数据流转步骤,统一了数据安全访问策略,简化了上云场景选择和数据准备过程。在守住数据安全的命门后,云端的算力红利有望惠及更多的芯片企业。
其中,云计算提供的弹性算力支持,既满足了在有限时间内快速获得大量算力资源的要求,也让研发人员可以并发作业,研发效率得到极大优化。在成本上,上云也避免了IT基础设施的重复建设。
芯片设计上云,早已是国外顶尖芯片设计企业的共同选择。2019年开始,海外芯片巨头就开始纷纷“上云”。例如,台积电、新思、益华电脑利用微软Azure云服务,在20分钟内构建了10万个虚拟运算单元,极大地缩短了开发时间。
目前,中国芯片设计企业与国外巨头相比,仍有较为悬殊的差距。如果仅仅依靠企业自身的资源,显然不足以解决海外芯片巨头都难以解决的算力难题。
而燧原科技用自身经历为所有国内芯片企业提供了一条新的思路:弹性计算加速研发进度,提升研发效率。