来源:TechRadar 作者:Eric Hal Schwartz

根据 OpenAI 的一项调查并由《纽约时报》分享的内容来看,类似的关联可能也适用于人工智能。自人工智能聊天机器人诞生以来,虚构的事实、想象出来的信息以及直白的谎言就一直是它们的一部分。从理论上讲,对模型的改进应该会降低这些问题出现的频率。
OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类逻辑。与它们的前辈们主要专注于生成流畅的文本不同,OpenAI 打造 GPT o3 和 o4-mini 是为了让它们能够一步一步地思考问题。OpenAI 曾吹嘘 o1 在化学、生物学和数学方面的表现可以达到甚至超过博士生的水平。但 OpenAI 的报告指出,对于任何轻信 ChatGPT 回答的人来说,都可能会得到一些令人担忧的结果。
OpenAI 发现,在一项涉及公众人物的基准测试中,GPT o3 模型在三分之一的测试中掺入了 “幻觉” 内容。这一错误率是去年早期版本 o1 模型的两倍。更为精简的 o4-mini 模型表现更差,在类似任务中出现 “幻觉” 的比例达到了 48%。
当在 SimpleQA 基准测试中对更一般性的知识问题进行测试时,o3 模型回答中的 “幻觉” 内容比例飙升至 51%,o4-mini 模型则达到了 79%。这可不只是系统中出现的一点小偏差,而是一场全面的 “身份危机”。你可能会认为,一个被宣传为推理系统的东西至少会在编造答案之前仔细检查一下自己的逻辑,但事实并非如此。
在人工智能研究领域流传着一种理论,即一个模型尝试进行的推理越多,它出错的可能性就越大。与那些只给出高可信度预测的简单模型不同,推理模型会涉足这样的领域:它们必须评估多种可能的路径,将不同的事实联系起来,并且基本上要进行即兴发挥。而围绕事实进行即兴发挥也就是我们所说的编造内容。
虚构的表现
相关性并不等同于因果关系,OpenAI 告诉《纽约时报》,“幻觉” 问题的增加可能并非是因为推理模型本身更差。相反,它们的答案可能只是更加冗长且大胆。由于新模型不只是重复那些可预测的事实,而是会对各种可能性进行推测,对于人工智能来说,理论和虚构事实之间的界限可能会变得模糊。不幸的是,其中一些可能性完全脱离了现实。
尽管如此,更多的 “幻觉” 问题与 OpenAI 以及谷歌、Anthropic 等竞争对手对其最先进模型的期望背道而驰。将人工智能聊天机器人称为助手和副驾驶,意味着它们应该是有帮助的,而不是有害的。律师们已经因为使用 ChatGPT 却没有注意到其中虚构的法庭引文而陷入了麻烦;谁知道在那些风险不那么高的情况下,还有多少这样的错误引发了问题呢?
随着人工智能系统开始在教室、办公室、医院和政府机构中推广,“幻觉” 问题给用户带来麻烦的可能性正在迅速增加。复杂的人工智能可能有助于撰写求职申请、解决账单问题或分析电子表格,但矛盾的是,人工智能越有用,出错的空间就越小。
如果你让人们花费同样多的时间来反复检查你所说的每一件事,那你就不能声称自己为人们节省了时间和精力。倒不是说这些模型不令人印象深刻。GPT o3 已经展示出了一些在编码和逻辑方面的惊人能力。在某些方面,它甚至可以超越许多人类。问题在于,一旦它认定亚伯拉罕・林肯曾主持过播客,或者水在 80 华氏度就会沸腾,其可靠性的假象就会瞬间破灭。
在这些问题得到解决之前,你应该对人工智能模型给出的任何回答都持高度怀疑的态度。有时候,ChatGPT 有点像我们在太多会议中都遇到过的那个令人讨厌的家伙,对一派胡言充满自信。
本文转载自TechRadar,本文观点不代表雅典娜AI助手YadiannaAI立场。