大模型之上,算力芯片企业的路径抉择

“生成式AI需要更高的芯片算力和片间互联能力。”

“大模型算力需求超过半导体增长曲线,Chiplet是满足需求的关键。”

“(大模型需要)分布式计算能力,包括数据并行、模型并行、流水并行等分布式计算方案,计算效率尤其关键。”

自去年年底大模型“热潮”席卷而来,半导体业内对于大模型需要什么样的硬件的问题众说纷纭。当前国内外大模型的数量已发展到以百千计,大模型参数量也发展到千亿级。在这种趋势下,算力芯片究竟该如何适应大模型不断增长的算力需求?

从集群的角度看问题:提高带宽与存储

“大模型时代,从单卡效率看问题的视角已经落伍了,对硬件设备的审视要更多地从集群的角度去看。” 燧原科技产品市场总经理高平在接受《中国电子报》采访时说道。

在当前计算机采用的冯·诺依曼的体系架构下,计算和存储是分离的。一项任务的完成,既需要高算力,又需要大存储量和高效互联作为支持。长期以来,厂商对于处理器效率提升的关注点都放在算力上。而大模型训练,动辄需要上千张甚至上万张算力芯片组成的集群。这使得原本没有特别受到重视的存储量和带宽一下子成为制约集群效率的瓶颈,也成为各厂商最为关注的技术指标。

沐曦集成电路(上海)有限公司联合创始人、CMO孙尔俊在接受《中国电子报》记者采访时表示,大模型需要缓存上千亿的参数量,单个芯片的存储量越大,整个集群所需要的芯片数量就越少,片间花费的传输时间就相应地会更低,从而更有利于提高整个集群的计算效率。这意味着,如果单卡存储容量不够,原本用1000张卡就能完成加速的工作,需要扩展到更多的芯片上完成,卡间互联所需要的时间会被拉长,整个系统的效率也由此降低。

沐曦首款人工智能推理GPU曦思N100

片间带宽是另一个备受关注的指标。芯片存储量和片间互联带宽,就像是支撑大模型硬件基础的一体两面。如果把大模型训练比作货物运输的过程,存储量就像是每辆卡车的装载量,而带宽就像是高速公路的并行车道数。二者共同决定了整个训练任务多久才能完成。

由此,如何提高算力芯片的单片存储和片间带宽,成为算力芯片厂商需要考虑的问题。

在提高芯片存储量方面,业界采取的依然是提升晶体管密度和加大存储面积两种思路。一方面采用更先进的工艺,另一方面采用3D封装,将存储贴在芯片上。

相比之下,带宽提升更困难一些。高平表示:“带宽提升在很长时间内都是芯片设计领域的难点。相比于算力成倍数的提升,带宽的提升一直不大。工艺功耗等因素限制了数据传输的时钟频率,成本与芯片面积限制了传输的通道数量。”因此,业界出现了许多另辟蹊径的讨论,例如通过使存储与计算模块靠得更近以缩短传输距离,或者采取改变计算与存储排列方式的存算一体的架构等。

天数智芯在2023WAIC上展示大模型落地支持能力

天数智芯副总裁邹翾分享了天数的经验——通过优化算法、片间通讯协议和通讯物理层来系统化的缓解带宽瓶颈:“流行的大模型算法在硬件工程化中还有很多的调优空间,框架层有多种拓扑结构可以平衡单点计算与传输速度,有效降低带宽需求;互联技术方面,我们在协议层也采用了私有的协议,可以提高有效数据传输的效率;在物理层未来可供选择的非电技术也有进一步提升带宽的空间。”他还提到,未来应用的性能需要在系统架构上优化。一来大模型的工作负载可以结合节点配置的情况和传输能力进行调整,二来传输方式可以不仅限于电互联,还可以利用光互联等其他技术。软硬件系统级联合调优还有很大的空间,可以进一步压缩对于芯片硬件带宽的需求。 

提升“软”实力:优化工具与云服务

“对于很多客户来说,硬件就是个黑盒子,他们并不关心芯片内部的架构是什么样的。他们直接接触的,是产品的软件。”一位算力芯片领域资深专家告诉《中国电子报》记者,“与全球算力芯片领军企业相比,算力芯片的后起之秀们在硬件上实现赶超相对容易,软件反而是短板。”

“好用”,是大模型对算力芯片软件栈最基础的要求。

这个要求在大模型出现之前便已经存在。大模型的“遍地开花”对于软件的要求并没有根本性的变化,仍需要相适配的软件持续调优。

软件的优化,最需要客户与算力芯片企业的协同。作为算力芯片软件配套方面的“老大哥”,英伟达CUDA的制胜秘诀,就是拥有相当数量的客户群体,并充分了解客户需求。通过与客户沟通,持续进行软件调优,使产品更好用、更易用。

而对于国内算力芯片企业而言,不少企业接到的单个订单量比较大,足够维持企业的正常运转,但客户数量较少,这对于发展企业自己的软件栈并不是一件好事。“从软件的角度来说,一个客户无论买100张卡还是买10张卡,能够给我们带来的反馈是一样的。我们希望有更多的企业给我们具体的反馈,这样软件迭代优化的速度也会更快。”某算力芯片企业表示。

能不能做得像英伟达CUDA一样?这是算力芯片企业最常被问到的问题。

对于独立开发软件的企业而言,由于客户已经形成了使用CUDA的习惯,为了帮助客户尽快适应从CUDA软件向新环境的迁移,在自研软件的界面设计上,会主动选择贴合客户使用习惯的设计,从而帮助客户更轻松地完成迁移。

“加大在软件上的投入,已经是一个共识。几乎所有AI芯片公司软件团队一定比硬件团队人更多、投入更大。芯片公司越来越像软件公司,将研发的重点放在软件栈上面。”业界专家表示。

燧原科技全栈式人工智能开发服务平台

此外,提供云服务也是算力芯片企业提升影响力、拓展客户面的重要实现方式。成本低是云服务的核心优势。对于一些初创企业或者是规模较小的团队而言,购买算力芯片需要的成本较高,而通过云租赁的方式获得算力资源,可以以较低的成本缓解算力不足的问题。当前,谷歌、英伟达、阿里云、金山云等都已经具备为大模型提供云端算力的能力。

“从长期来看,肯定是自建算力平台的成本更低。但对于前期启动资金较少的企业来说,租用云算力的方式可以帮助企业在更短的时间内使用到运算更快的计算集群。”一位算力芯片领域资深专家这样告诉《中国电子报》记者。

市场开拓:强化产业协作

在算力芯片领域,市场对于英伟达之外的算力芯片厂商产品,接受度还有待提高。

据《中国电子报》记者采访了解,英伟达的产品依然是中国大模型企业的首选,其他品牌与英伟达的竞争存在客户使用习惯、客户对稳定性的质疑等多方面的制约。在金融、网络安全等领域之外,算力芯片“后起之秀”们的应用数量还比较有限。选择新兴算力芯片企业的,多是不以大模型作为主营业务的企业。这些企业或者是在尝试使用大模型、以大模型作为未来可能的发展方向,或者是做人工智能领域研究的实验室。另外有些企业,希望丰富自己的供应链来源,也会购进一批“国产卡”。以大模型为主营业务的企业,对效率的要求更高,希望产品“拿回来就能用”,虽然部分企业也会购进一批国产卡,但整体来看对可能需要进行设备调试的新兴品牌意愿不强。

大模型的发展给算力芯片企业带来了千载难逢的发展机会。据记者了解,当前国内算力芯片厂商已经获得了一定数量的专做大模型业务的客户。但相比于“百模大战”的盛况,以及每家企业都需要搭建千卡甚至万卡集群的规模,待开掘的市场空间还很广阔。当前,英伟达部分热门产品仍然紧俏,最长交付周期达三个月之久,这给其他的市场参与者带来了利好。

不仅如此,大模型的出现为原本苦于寻找应用场景的算力芯片找到了入场渠道。在大模型出现之前,模型种类比较分散,会出现多种模型解决同一个问题的情况。应用企业采用的技术路线碎片化,也导致芯片硬件厂商的技术路线多样化,技术难以收敛。

而大模型出现之后,应用的模型不再四面开花,模型的底层技术有了收敛的趋势,会更多地使用Transformer结构,这意味着上下游的协同将会从原来更偏向垂直合作的结构向金字塔形转变。即多种算力芯片产品共同服务于一种大模型结构。这也意味着算力芯片企业如果能够做到与一位大模型公司实现技术互通、生态共建,将赢得更高的市场话语权。

在此背景下,国内算力芯片企业更需要苦练内功,提供符合客户要求的产品,在单卡算力、卡间互联、内存大小等方面做到更优,同时提供更便于上手的软件服务。

燧原科技智算中心2.0模式

“打铁还需自身硬”。在当前市场背景下,国内算力芯片厂商该如何提升市场规模?记者通过采访了解到:供应链上下游之间的协作尤为重要。

“国内的算力芯片生态比较碎片化,国内芯片类型众多,缺乏统一的标准,这使得客户面对繁杂的市场也会有些无所适从。”高平表示。相比于英伟达,其他算力芯片厂商都是市场后入者。在这种情况下,如果每家都有自己的一套技术逻辑,那么客户尝试不同的厂商所需要付出的时间成本会更大,从而不利于市场的灵活发展。高平指出,面对这种情况,相关部门和大型企业可以进行引导,带领产业链实现行业标准的完善。

一位算力芯片专家提及,供应链纵向投资也是一种实现产业协同的方式。例如做下游应用的厂商,面向上游投资芯片,就会有比较大的动力在自己的产品中使用相应芯片产品。

搭建生态,是实现产业链协作的最终形式。高平表示,可以将产业链上下游纳入企业自己的生态体系,包括AI企业、OEM企业,AIGC应用企业等,通过与不同类型的企业搭建联系,共同解决未来应用场景的问题,这是一种生态搭建方式。在可操作层面,可以建立开发者社区,从而加强客户与品牌之间的沟通。

作者丨姬晓婷

编辑丨张心怡

美编丨马利亚

监制丨连晓东