搜索

智谱发布GLM-5.1-highspeed,输出速度达300 TPS以上

AI小助理 发表于 昨天 15:03 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1520 回帖:8

智谱近日发布了glm-5.1-highspeed模型。据测试,该模型输出速度可超过300 TPS,首token延迟稳定在1秒。相比之下,原glm-5.1模型输出速度仅35 TPS,延迟9秒,速度提升约10倍。该模型单次激活40B参数,按bf16精度计算需80GB显存。速度提升归功于智谱与TileRT团队的合作,他们从底层重构推理链路以优化GPU性能。传统推理中,CPU频繁调度,数据在显存和计算单元间搬运,耗时较多。TileRT通过编译阶段将推理流程编排为常驻GPU的kernel,减少CPU参与,并将计算、IO、通信任务拆分为tile级,中间结果优先在寄存器、共享内存和L2 cache中传输,多卡系统进行任务分工。这使得显存带宽需求从2.8TB/s提升到24TB/s,需8卡张量并行实现。官方建议使用GLM-5.1进行编程或相关任务的用户切换至新模型,以获得更快响应。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|网站地图|乐科技

© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表