今天(19日),上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。今年2月,上海AI实验室联合十余家合作伙伴,在上海建成了超大规模跨域混训集群原型,并实现千亿参数大模型20天不间断训练。在此基础上,上海AI实验室融合中国联通AINET技术,跨越1500公里连接了上海和济南之间的智算中心,完成千亿参数大模型混训,等效算力达单芯片单集群算力的95%以上;与中国电信息壤算网合作,实现了北京、上海与贵州等多地智算中心的互联和大模型混训。
为高灵活、低成本获取大算力提供新途径
随着国内AI研究及产业应用日益深化,算力需求持续增长,全国智算中心大规模兴建,但存在建设分散、采购芯片代次差异大、算力资源碎片化等问题,难以灵活、低成本地获取大算力。上海AI实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,有效应对硬件算力参差不齐、通信同步不稳定、故障容错难等挑战,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。
DeepLink超大规模跨域混训技术方案
破解效率低、不稳定、难协同三大难题
智算芯片行业百花齐放,但不同芯片的软件栈及性能存在差异,异构互联通信效率低下,导致适配纳管难度大、混训效率不高。且大规模远距离跨域混训需要解决网络带宽、通信延迟、训练稳定性等问题。针对远距离跨域混训存在的数据同步和稳定性问题,这一技术方案创新性地采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减少全局同步复杂度和通信开销,有效减轻了网络负担,为数据传输提供了更宽松的时间窗口,普通专线即可满足通信带宽的要求;还确保在异地训练中即使某个智算中心的节点发生故障也不影响整体训练,整体提升训练稳定性。
“3D并行+PS”架构
针对芯片种类繁多,不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,本方案同时提出改进的异构流水线并行策略,并采用自研分布式并行框架动态调节不同硬件的任务量,以更细粒度的拆分方式解决了异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。
携手上下游,助力AI生态繁荣
AI生态蓬勃发展,离不开算力资源高效盘活。作为国际级人工智能新型科研机构,上海AI实验室采取有组织的科研范式,发挥原创算法及AI软硬件深度互联技术优势,在全国算力互联互通探索中抢先布局、不断突破。DeepLink方案不仅验证了跨域混训的实用价值,也为行业提供了全新启示。在计算资源有限的场景下,行业依旧可以实现不同性能芯片的灵活组合,无需依赖高算力芯片“扎堆”式部署,有效降低对特定硬件的路径依赖;不同算力集群可通过互联组合形成“合力”,突破单集群性能上限;跨厂商资源更好地兼容与协作,为算力生态的多元繁荣奠定基础。
DeepLink超大规模跨域混训技术快速集成方案
新民晚报记者了解到,目前,上海AI实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。
原标题:跨南北、贯东西,支持千公里级跨域混训!上海发布超大规模跨域混训技术方案
下一篇:杨小菁到经开区调研