OpenAI发布了一篇新论文,指出了ChatGPT为何容易虚构信息。不幸的是,这个问题可能无法解决。
OpenAI的最新研究论文精确诊断了ChatGPT及其他大型语言模型为何会"捏造事实" —— 在人工智能领域被称为"幻觉"。该论文也揭示了为何这个问题可能无法解决,至少对普通消费者而言是如此。
这篇论文为这些模型为何会自信地陈述虚假信息提供了迄今为止最严谨的数学解释。它表明,这不仅仅是当前AI训练方式带来的不幸副作用,而且在数学上是不可避免的。
这个问题部分可以归因于用于训练AI的基础数据中的错误。但通过对AI系统学习方式的数学分析,研究人员证明,即使使用完美的训练数据,问题依然存在。
语言模型通过基于概率预测句子中的一个接一个单词来回应查询 —— 这种方式自然会出错。研究人员实际上表明,生成句子的总错误率至少是同一个AI在简单是/否问题上错误率的两倍,因为错误会在多个预测中累积。
换言之,幻觉率从根本上受限于AI系统区分有效与无效回答的能力。由于这种分类问题对于许多知识领域来说本身就非常困难,因此幻觉变得不可避免。
研究还发现,模型在训练中看到一个事实的次数越少,当被问及相关问题时,它产生幻觉的可能性就越大。例如,以知名人物的生日为例,研究发现,如果20%的此类人物的生日在训练数据中仅出现一次,那么基础模型至少会答错20%的生日查询。
果不其然,当研究人员向最先进的模型询问论文作者之一Adam Kalai的生日时,DeepSeek-V3在几次独立的尝试中,自信地给出了三个不同的错误日期:"03-07"、"15-06"和"01-01"。而正确的日期在秋季,所以这些答案无一接近正确答案。
评估陷阱
更令人不安的是,论文分析了为何在后期训练努力(例如在AI向公众发布前,对其回答提供大量人类反馈)之后,幻觉依然存在。作者们检查了十个主要的AI基准测试,包括谷歌、OpenAI使用的那些,以及用于给AI模型排名的顶尖排行榜。结果发现,有九个基准测试使用二元评分系统,对表达不确定性的AI给予零分。
这造成了作者所称的惩罚诚实回答的"流行病"。当AI系统说"我不知道"时,它会得到与提供完全错误信息相同的分数。在这种评估体系下,最优策略变得显而易见:总是猜测。
研究人员从数学上证明了这一点。无论某个特定答案正确的几率是多少,在使用二元评分的评估中,猜测的期望得分总是超过弃答的得分。
会毁掉一切的解决方案
OpenAI提出的解决方案是,让AI在给出答案前评估其自身对该答案的置信度,并让基准测试在此基础上进行评分。例如,可以这样提示AI:"仅当你的置信度超过75%时才回答,因为错误答案会被扣3分,而正确答案只得1分。"
OpenAI研究人员的数学框架表明,在适当的置信度阈值下,AI系统会自然地表达不确定性而非猜测。这将导致更少的幻觉。问题在于这会对用户体验造成何种影响。
试想一下,如果ChatGPT开始对甚至30%的查询(这是基于论文对训练数据中事实不确定性的分析得出的保守估计)说"我不知道",会发生什么。习惯了几乎对所有问题都能得到自信回答的用户,很可能会迅速抛弃这样的系统。
我在生活的另一个领域见过类似问题。我参与了犹他州盐湖城的一个空气质量监测项目。当系统在恶劣天气条件或设备校准时标记测量不确定性时,用户参与度会低于显示确定读数的时候 —— 即使在验证过程中那些自信的读数被证明是不准确的。
计算经济学问题
利用论文的见解来减少幻觉并不困难。用于量化不确定性的成熟方法已存在数十年。这些方法可用于提供可信的不确定性估计,并指导AI做出更明智的选择。
但是,即使用户不喜欢这种不确定性的问题能够克服,还存在一个更大的障碍:计算经济学。具有不确定性意识的语言模型比当前的方法需要显著更多的计算量,因为它们必须评估多种可能的回答并估计置信水平。对于一个每天处理数百万次查询的系统而言,这意味着运营成本急剧增加。
更复杂的方法,如主动学习(AI系统通过提出澄清问题来减少不确定性),可以提高准确性,但会进一步倍增计算需求。此类方法在芯片设计等专业领域效果很好,因为在这些领域,错误答案的代价高达数百万美元,从而使得大量计算是合理的。但对于用户期望即时响应的消费级应用而言,其经济成本变得令人望而却步。
对于管理关键业务运营或经济基础设施的AI系统而言,这种权衡则截然不同。当AI代理处理供应链物流、金融交易或医疗诊断时,幻觉的成本远远超过让模型判断自身是否过于不确定所带来的开销。在这些领域,论文提出的解决方案在经济上变得可行 —— 甚至是必要的。具有不确定性的AI代理必然成本更高。
然而,消费级应用仍然主导着AI开发的优先级。用户想要的是能够对任何问题提供自信回答的系统。评估基准奖励的是那些猜测而非表达不确定性的系统。计算成本倾向于快速、过度自信的回答,而不是缓慢、不确定的回答。
每个token的能源成本下降和芯片架构的进步,或许最终会让AI决定自己是否足够确定来回答一个问题变得更为经济。但是,与当前的猜测方式相比,所需计算量相对较高的情况将依然存在,无论硬件绝对成本如何。
简而言之,OpenAI的论文不经意地揭示了一个令人不安的真相:驱动消费级AI发展的商业激励,从根本上仍然与减少幻觉的目标不一致。在这些激励改变之前,幻觉将持续存在。
如果朋友们喜欢,敬请关注“知新了了”!