并行科技董事长陈健:打造可用、好用、降本的大模型超算算力

【环球网科技报道记者林迪】算力作为数字经济时代新的生产力,已经成为经济社会高质量发展的重要支撑。目前,我国算力总规模位居全球第二,并且保持着30%左右的年增长率。预计在2023年,AI算力将首次超过通用算力。AI已成为算力增长的新引擎。如何跟上算力发展的步伐,凸显算力优势,实现算力资本、算力服务的协同互补,从而更好地赋能产业数字化和数字产业化成为亟需破解的问题。

近日,在第十九届CCF全国高性能计算学术年会上,业界专家认为,近几年,我国算力综合供给水平快速提升,算力产业创新能力持续增强,算力赋能千行百业成效显著。从超算行业来看,超算已为汽车制造、气象海洋、基因测序、新药研发、芯片制造、石油勘探等众多行业提供了灵活弹性、快捷高效、安全可靠的算力支持。在AI的驱动下,超算行业未来仍有巨大潜力可挖,新的技术和应用亮点会层出不穷。

北京并行科技股份有限公司董事长陈健表示,“算力网络是解决当前算力问题的最优模式。只要还有可用的超算算力,算力网络就能支撑用户完成计算任务。”

北京并行科技股份有限公司董事长陈健博士接受环球网专访

据了解,并行科技在过去十年基于算力网络服务模式,汇聚国内外超算和智算算力资源,实现了算力资源、应用资源、数据资源的共享与交易,并面向终端用户提供多样化的算力服务。其中,在算力网络模式方面,并行科技为行业发展提供了一套行之有效的破题方法。

“我们主要通过技术服务、应用服务以及性能优化,帮助客户提升训练效率。”陈健告诉记者,并行科技主要的优势体现在:确保用户有GPU卡可以用;通过技术服务让客户感到好用;通过算例性能优化,降低用户使用GPU卡的成本,并提升效率。“其中,好用分成两个维度,一是稳定易用,二是性能好,这也是超算一直努力的目标。为了实现智算中心的好用,并行科技从运营和优化两方面入手,为用户提供最优性价比的算力。”

在算力服务方面,基于运行特征的调度,主要有两个目的:第一,根据运营的需求,全网找到性能最好的算力,或性价比最好的算力,让用户能最快、最低成本地完成任务,这是系统选型。第二,是优化。

陈健进一步举例解释道,“我们用户的真实案例:优化前,用户的应用GPU 利用率只有 75%,显存利用率接近 100%,应用每次迭代需要13.97s,我们的技术优化团队帮客户定位到应用的瓶颈在计算负载的分配上。我们通过修改算法和配置参数,优化通信及运行模式,优化后,该应用 GPU 利用率达到了 95%,NVLink 和 IB 通信带宽都得到了充分利用,每次应用迭代时长缩减至10s,应用效率整体提升近 40% 。”

至于降本,他指出,目前超算行业用户大约有10%的算力需求是租用,90%是自建,所以各大超算中心利用率未达到“饱和”。对于自建和租用,陈健给出的建议是,最适合的做法是自建波谷以下的部分,租用波谷以上到波峰的部分,这样的投入产出比最高。

据了解,并行科技加入超算云服务这个赛道10年左右的时间,在积累海量用户之后,会更多关注在用户的应用特点上,从客户的需求去反推产品设计或者产品选择。

陈健对记者表示,“我们用了15年的时间在做‘应用运行特征分析’。我们分析用户的应用,根据应用的特点去反推我们应该选择什么样的算力或我们应该新建什么样的算力,以满足用户需求。坦诚来讲,用户需要的不是算力,而是完成他的任务,只是要完成这个任务,需要用到算力,这个逻辑我们要理清楚。所以对并行科技来说,我们通过算力网络聚集了现在上百种算力,然后根据用户的需求去选择最适合用户的算力。”

“算力为经济增长‘添马力’。”最后,他指出,“作为独立超算服务商、超算云服务化的主要推动者,并行科技希望通过自己的力量支持到千行百业的发展。”