• 您的当前位置:首页 > 乐鱼网官网进入
  • 江苏移动完成业界首个跨多DC智算无损组网测试落地验证分布式智算协同训练技术可行

    2025-03-05 23:46:39 乐鱼网官网进入

      近日,公司打造的业界首个多DC分布式、非对称、超百公里协同训练智算网络在江苏移动长三角云计算中心完成测试,在3DC总距离1000公里的场景下,跨域分布式训练性能达到单智算中心训练性能的95%以上,标志着多DC协同训练技术落地验证可行,并逐步向商用迈进。

      算力是数字化的经济时代的核心基础设施,对促进经济稳步的增长,推动科学技术进步以及满足日渐增长的数据处理需求具有至关重要的作用。随着大模型训练需求的持续增长,算力需求和单地域(DC)的算力不匹配问题日渐突出,将多地域(DC)内的碎片算力集中起来提升算力利用率、训练更大的模型成了多智算中心算间网络发展的必经之路。

      本次公司多DC分布式协同训练试点测试,通过3DC及以上的场景互联、从对称组网到非对称组网、从环形组网到链型组网,验证了多DC之间非对称算力协同训练和百亿、千亿大模型在训练过程中链路中断对训练性能的影响等,更符合现网场景。试点测试根据结果得出,智算分布式协同训练解决方案已经具备技术可行性。

      本次试点,通过3DC参数面拉远组网,以单DC最优性能配置为基线B作为输入模型,对比了跨DC协同不同参数的性能变化,测试了分布式智算集群对大模型训练性能影响的重要的条件,支撑未来区域化智算集群商用可行性。该方案通过弹性灵活调度、广域无损技术实现多个智算中心互联,满足跨DC分布式智算集群灵活扩展,支撑客户大模型训练和按需部署。测试根据结果得出,三DC总距离千公里场景下,跨域分布式训练性能直线下降5%以内。

      未来,公司将携手产业伙伴面向更大规模、更长距离的分布式智算网络持续探索,坚持走出一条符合产业需求的智算发展之路,提高数字化的经济时代整体产业的竞争力。

      江苏移动完成业界首个跨多DC智算无损组网测试,落地验证分布式智算协同训练技术可行

    电话咨询
    销售热线
    产品中心
    联系我们
    cache