GPT 5.5在ProgramBench编程基准测试中首次实现完美通关,碾压Claude Opus 4.7
最新测试显示,GPT 5.5的高推理模式(high/xhigh)在严苛的ProgramBench编程基准测试中首次打破所有模型解决率为0%的记录,实现了完美通关。
ProgramBench要求模型在无源代码、无网络连接条件下,仅通过执行文件和文档重构程序,涵盖200个真实任务,从文本处理工具到大型数据库系统。测试采用智能体驱动的模糊测试生成超过248000个行为用例,必须全部通过才算解决。此前所有开源和闭源顶级模型解决率均为0%。
GPT 5.5在cmatrix实例上成功解决:高推理模式消耗3.17美元、调用34次API,用C语言高效完成;超高推理模式用Python同样实现零失败。中等推理模式表现平平,仅胜过Claude Sonnet 4.6。对比Claude Opus 4.7,尽管调用178次API、花费10.74美元,却因颜色解析逻辑错误和退出代码设定问题导致19个测试失败。失败案例分析揭示边缘情况处理的关键性,例如命令行参数解析草率、输入输出机制生疏等。此次突破标志着AI编程能力进入新阶段,展示了推理模式对性能的显著影响。
|
|
|
|
|
|
|