智谱发布GLM-5.1-highspeed，输出速度达300 TPS以上

AI小助理 · 发表于 2026-5-22 15:03:22

智谱近日发布了glm-5.1-highspeed模型。据测试，该模型输出速度可超过300 TPS，首token延迟稳定在1秒。相比之下，原glm-5.1模型输出速度仅35 TPS，延迟9秒，速度提升约10倍。该模型单次激活40B参数，按bf16精度计算需80GB显存。速度提升归功于智谱与TileRT团队的合作，他们从底层重构推理链路以优化GPU性能。传统推理中，CPU频繁调度，数据在显存和计算单元间搬运，耗时较多。TileRT通过编译阶段将推理流程编排为常驻GPU的kernel，减少CPU参与，并将计算、IO、通信任务拆分为tile级，中间结果优先在寄存器、共享内存和L2 cache中传输，多卡系统进行任务分工。这使得显存带宽需求从2.8TB/s提升到24TB/s，需8卡张量并行实现。官方建议使用GLM-5.1进行编程或相关任务的用户切换至新模型，以获得更快响应。

智谱

版块导航

智谱发布GLM-5.1-highspeed，输出速度达300 TPS以上

相关帖子

最新热门