OpenAI最新研究揭开AI幻觉真相:不是技术缺陷,而是评估机制在“鼓励说谎”
2025年9月,OpenAI联合佐治亚理工学院发布重磅论文《Why Language Models Hallucinate》(《语言模型为何产生幻觉》),首次从统计学与评估机制角度系统揭示了AI“幻觉”——即模型自信输出错误信息——的根本成因。
研究指出,AI幻觉并非偶然bug,而是当前主流训练与评估体系的必然结果。现有评测普遍采用“答对得分、答错或不答得零分”的二元评分机制,这无形中鼓励模型在不确定时“蒙一个”而非诚实回答“我不知道”。就像学生考试时宁愿瞎猜也不留空,AI也被训练成“宁可编造,也不沉默”。
更关键的是,论文通过数学证明:生成正确回答的难度远高于判断回答是否正确,而模型在预训练阶段缺乏“真假”标签,只能依赖统计规律预测下一个词。当面对训练数据中仅出现一次的“任意事实”(如某人生日),幻觉几乎不可避免。
对此,OpenAI提出改革方向:重构评估体系,对错误答案扣分,对合理表达不确定性的回答给予部分分数。例如,设定“仅在置信度超75%时作答,否则回答‘我不知道’”的规则,可显著降低幻觉率。
研究强调,幻觉无法彻底消除,但可通过机制设计加以控制。未来可信AI的发展,不在于追求“永远正确”,而在于学会“该闭嘴时闭嘴”。