微软Azure部署全球首个GB300超算集群,推理速度突破每秒110万Token
2025年11月4日,微软宣布其Azure云平台已成功部署全球首个基于英伟达GB300芯片的ND系列超算集群,实现每秒高达110万Token的AI推理吞吐量,创下行业新纪录。
该集群采用英伟达最新发布的GB300芯片,基于Blackwell Ultra架构,单卡FP4算力达15 PFLOPS,并配备288GB HBM3e高带宽显存。配合全液冷散热与NVLink-C2C高速互连技术,系统在处理如DeepSeek-R1等大模型时,响应时间从1.5分钟大幅缩短至10秒。
微软表示,这一突破将显著提升企业级AI应用的实时性与成本效益,尤其适用于智能客服、代码生成、多模态Agent等高并发推理场景。目前,该服务已面向Azure AI客户开放预览。
此次部署标志着微软与英伟达在AI基础设施领域的深度协同,也为全球开发者提供了前所未有的云端推理性能标杆。