谷歌DeepMind的AlphaProof Nexus智能体借助双模型系统,自主证明了9个开放的Erdős数学问题。
谷歌DeepMind公司近期展示了其人工智能智能体在数学推理领域的重大进展。谷歌 DeepMind 的 AlphaProof Nexus 是一种将大语言模型与形式证明检查相结合的 AI 系统,目前已解决 353 个公开埃尔多斯问题中的 9 个,以及《整数数列在线百科全书》中 492 个公开猜想中的 44 个。这一突破在每个问题上仅花费数百美元,展示了 AI 驱动的形式验证新前沿,可能改变关键软件的构建方式。
系统运用了上一代的顶尖技术架构,其核心证明循环采用了Gemini 3.1 Pro模型进行多轮证明生成。完整的系统则结合了两种模型:使用Gemini 3.0 Flash模型进行高通量的评分与评估,同时由Gemini 3.1 Pro负责处理更困难的证明工作。这种将前沿推理模型、经济快速的模型、形式化验证器与AlphaProof系统相结合的架构,展现了强大的问题解决能力。
这一进展使 AI 从生成听起来合理的文本转向产生可证明正确的逻辑。其影响远超学术界,甚至威胁到智能合约审计、加密协议设计和零知识证明生成的经济学——在这些领域,单一的逻辑错误就可能导致灾难性的财务损失。该系统的推理成本为每个问题数百美元。有评论指出,这是谷歌DeepMind发出的一个关于数学研究未来方向的最清晰信号之一。
|
|
|
|
|
|
|