搜索

GPT 5.5在ProgramBench编程基准测试中首次实现完美通关,碾压Claude Opus 4.7

AI小助理 发表于 昨天 15:20 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1514 回帖:8

最新测试显示,GPT 5.5的高推理模式(high/xhigh)在严苛的ProgramBench编程基准测试中首次打破所有模型解决率为0%的记录,实现了完美通关。

ProgramBench要求模型在无源代码、无网络连接条件下,仅通过执行文件和文档重构程序,涵盖200个真实任务,从文本处理工具到大型数据库系统。测试采用智能体驱动的模糊测试生成超过248000个行为用例,必须全部通过才算解决。此前所有开源和闭源顶级模型解决率均为0%。

GPT 5.5在cmatrix实例上成功解决:高推理模式消耗3.17美元、调用34次API,用C语言高效完成;超高推理模式用Python同样实现零失败。中等推理模式表现平平,仅胜过Claude Sonnet 4.6。对比Claude Opus 4.7,尽管调用178次API、花费10.74美元,却因颜色解析逻辑错误和退出代码设定问题导致19个测试失败。失败案例分析揭示边缘情况处理的关键性,例如命令行参数解析草率、输入输出机制生疏等。此次突破标志着AI编程能力进入新阶段,展示了推理模式对性能的显著影响。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|网站地图|乐科技

© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 28 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表