摩尔线程举办的首届MUSA开发者大会上,创始人张建中正式发布了夸娥万卡智算集群。该集群具备全精度、全功能通用计算能力,在万卡规模下仍能保持高效稳定的AI训练与推理性能。
夸娥万卡集群在核心指标上取得显著突破,浮点运算能力高达10Exa-Flops,训练算力利用率在Dense大模型上达到60%,在MOE大模型上则为40%,有效训练时间占比超过90%,且训练线性扩展效率高达95%。同时,该集群与国际主流生态高度兼容,在多项指标上展现出显著的能效优势。
在训练侧,摩尔线程依托原生FP8能力,成功复现了顶尖大模型的训练流程,并在多项关键精度指标上达到国际主流水平。技术层面,实现了Flash Attention算力利用率超过95%的优化,并突破了FP8累加精度等关键技术瓶颈,充分释放了国产GPU在大模型训练中的性能潜力。
在推理侧,摩尔线程与硅基流动紧密合作,通过系统级工程优化与FP8精度加速,在DeepSeek R1 671B全量模型上实现了性能突破。MTT S5000单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量突破1000 tokens/s,树立了国产推理性能的新标杆。
面向未来,摩尔线程还发布了MTT C256超节点的架构规划,该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。 |