测试中创造了历史性记录,利用2496块GB200 Blackwell芯片组成的超大规模集群,成功在27.3分钟内完成Llama 3.1 405B模型的训练。这一壮举不仅刷新了MLPerf基准测试的规模纪录,还展现了人工智能(AI)基础设施在性能和效率上的飞跃。相比其他同等规模的集群,CoreWeave的训练速度提升超过两倍,凸显了其在AI云平台的领先地位。测试结果由MLCommons于6月4日公布,标志着AI训练技术的全新里程碑。 本轮测试中,GB200 NVL72集群的规模达到其他云服务商提交结果的34倍,展现了CoreWeave在构建超大规模AI基础设施方面的独特优势。这一集群由36个Nvidia Grace CPU和72个Blackwell GPU组成,通过NVLink和NVSwitch技术实现高效互联,提供了高达1.4 exaFLOPS的计算能力,为处理万亿参数模型提供了强大支持。 AI基础设施竞争加剧 随着生成式AI和大型语言模型的快速发展,全球对算力基础设施的需求激增,CoreWeave、英伟达和IBM的合作成为行业焦点。CoreWeave的首席技术官Peter Salanki表示:“AI实验室和企业选择CoreWeave,是因为我们提供专门构建的云平台,具备他们工作负载所需的规模、性能和可靠性。”这一言论反映了企业在AI基础设施领域的激烈竞争,CoreWeave通过快速部署最新GPU技术,如GB200,巩固了其市场地位。 MLPerf Training v5.0测试引入了全新的Llama 3.1 405B预训练任务,取代了之前的GPT-3 175B测试。这一模型拥有4050亿参数,支持高达128,000个token的输入输出长度,显著提高了对内存带宽和互联性能的要求。CoreWeave的成功不仅得益于硬件性能,还依赖其优化的云平台架构,降低了模型开发周期和总体拥有成本(TCO)。 性能对比与技术突破 本轮MLPerf测试展示了GB200 Blackwell相较于上一代Hopper架构的显著优势。以下表格对比了不同GPU在Llama 3.1 405B和Llama 2 70B模型上的性能表现: 硬件平台 模型 吞吐量(TPS) 训练时间 备注 GB200 NVL72 (2496 GPUs) Llama 3.1 405B 13,886 27.3分钟 2倍于同规模集群 H200 NVL8 (8 GPUs) Llama 3.1 405B 800 未公开 FP8精度 H200 (8 GPUs) Llama 2 70B 33,000 未公开 比H100提升40% GB200 (8 GPUs) Llama 2 70B Interactive 3倍于H200 未公开 低延迟场景 数据表明,GB200 Blackwell通过FP4精度和第二代Transformer引擎,显著提升了推理和训练效率,尤其在处理超大规模模型时表现突出。 此外,CoreWeave的云平台通过与英伟达的NVLink技术和Quantum-X800 InfiniBand网络的结合,实现了90%的强扩展效率,从512个GPU扩展到2496个GPU时几乎保持线性性能增长。这种高效扩展为企业提供了快速部署前沿模型的能力。 行业领袖观点 英伟达加速计算产品总监Dave Salvator在6月4日的媒体简会上表示:“MLPerf通过标准化的测试规则,确保了公平的性能对比,Llama 3.1 405B的引入反映了行业向更大规模模型的趋势。”他强调,英伟达的Blackwell平台为AI工厂提供了前所未有的计算能力,助力企业快速从数据到洞察的转化。 MLCommons负责人David Kanter指出:“本轮测试的参与度创历史新高,Llama 3.1 405B的提交数量已超过之前的GPT-3测试,显示出行业对大规模AI训练的关注。”他特别提到能效问题的重要性,联想在本轮测试中提交的功耗基准为行业提供了宝贵参考。 编辑总结 CoreWeave联合英伟达和IBM在MLPerf Training v5.0测试中的突破,彰显了AI基础设施在性能、规模和效率上的新高度。2496块GB200 Blackwell芯片组成的集群以27.3分钟完成Llama 3.1 405B训练,不仅刷新了记录,还推动了AI云服务的商业化进程。Blackwell架构的FP4精度和高效互联技术为超大规模模型训练提供了可能,而CoreWeave的云平台优化进一步降低了企业成本。未来,随着AI模型复杂度和算力需求的持续增长,类似的技术合作和基准测试将成为行业发展的关键驱动力。 2025年相关大事件 2025年6月4日:CoreWeave、英伟达和IBM使用2496块GB200 Blackwell芯片完成MLPerf Training v5.0测试,Llama 3.1 405B模型训练耗时27.3分钟,创历史记录。 2025年4月2日:CoreWeave成为首家提交MLPerf Inference v5.0测试结果的云服务商,使用GB200 NVL72实现Llama 3.1 405B模型800 TPS的推理性能。 2025年3月15日:英伟达宣布GB200 Blackwell平台全面投产,微软Azure、谷歌云和CoreWeave首批提供服务。 2025年1月17日:MLCommons发布MLPerf Training v2.0结果,新增Llama 3.1 405B基准测试,标志着AI训练向更大规模模型迈进。 国际投行与专家点评 Jim McGregor, Tirias Research首席分析师,2025年4月3日:“MLPerf的最新结果显示,生成式AI正在重塑推理格局,英伟达的FP4精度和Blackwell架构推动了性能的显著提升。CoreWeave的快速部署能力表明,云服务商在AI基础设施中的角色愈发关键。” 来源:Network World Laura Martin, Needham & Company高级分析师,2025年6月5日:“CoreWeave在MLPerf测试中的表现证明了其在AI云市场的领导地位。2496块GB200集群的规模和效率为企业提供了成本效益显著的解决方案,预计其市场份额将持续扩大。” 来源:AI Journal Patrick Moorhead, Moor Insights & Strategy首席执行官,2025年6月4日:“英伟达Blackwell平台的性能飞跃不仅是硬件的胜利,更是软件优化的成果。CoreWeave的云平台展示了如何将尖端技术转化为商业价值。” 来源:VentureBeat Anshel Sag, Moor Insights & Strategy分析师,2025年4月3日:“GB200 NVL72的30倍吞吐量提升表明,AI基础设施正进入新阶段。CoreWeave的成功在于其快速整合最新技术的能力,这对AI实验室至关重要。” 来源:Electronicspecifier Stacy Rasgon, Bernstein Research分析师,2025年6月5日:“CoreWeave与英伟达的合作展示了AI云服务的未来方向。27.3分钟完成Llama 3.1 405B训练的成绩将吸引更多企业转向高性能云平台。” 来源:MarketScreener 来源:今日美股网lg...