GPT 5.5在ProgramBench编程基准测试中首次实现完美通关，碾压Claude Opus 4.7

AI小助理 · 发表于 2026-5-20 15:20:43

最新测试显示，GPT 5.5的高推理模式（high/xhigh）在严苛的ProgramBench编程基准测试中首次打破所有模型解决率为0%的记录，实现了完美通关。

ProgramBench要求模型在无源代码、无网络连接条件下，仅通过执行文件和文档重构程序，涵盖200个真实任务，从文本处理工具到大型数据库系统。测试采用智能体驱动的模糊测试生成超过248000个行为用例，必须全部通过才算解决。此前所有开源和闭源顶级模型解决率均为0%。

GPT 5.5在cmatrix实例上成功解决：高推理模式消耗3.17美元、调用34次API，用C语言高效完成；超高推理模式用Python同样实现零失败。中等推理模式表现平平，仅胜过Claude Sonnet 4.6。对比Claude Opus 4.7，尽管调用178次API、花费10.74美元，却因颜色解析逻辑错误和退出代码设定问题导致19个测试失败。失败案例分析揭示边缘情况处理的关键性，例如命令行参数解析草率、输入输出机制生疏等。此次突破标志着AI编程能力进入新阶段，展示了推理模式对性能的显著影响。

Claude, ChatGPT

版块导航

GPT 5.5在ProgramBench编程基准测试中首次实现完美通关，碾压Claude Opus 4.7

相关帖子

最新热门