来源:CNET 作者:Jon Reed

OpenAI 最近对 ChatGPT 的更新变得过于迎合用户了,OpenAI 表示正在采取措施防止此类问题再次发生。在一篇博客文章中,该公司详细介绍了其对新模型的测试和评估流程,并阐述了 4 月 25 日对 GPT-4o 模型的更新所出现问题的原因。从本质上讲,一堆单独看来似乎有益的改动综合在一起,造就了一个过于谄媚且可能有害的工具。
它到底有多会讨好用户呢?在一些测试中,我们询问了关于过度多愁善感的倾向,ChatGPT 说:“嘿,听好了 —— 多愁善感可不是弱点;这是你的超能力之一。” 而且它才刚刚开始大肆吹捧呢。该公司称:“这次更新让我们吸取了许多教训。即便我们认为已经具备了所有正确的要素(A/B 测试、离线评估、专家评审),我们还是忽略了这个重要问题。” OpenAI 在 4 月底撤回了这次更新。为了避免引发新问题,该公司花了大约 24 小时为所有用户恢复了原来的模型。
对谄媚问题的担忧不仅仅关乎用户体验的愉悦程度。它对用户构成了健康和安全威胁,而 OpenAI 现有的安全检查却未能发现这一点。任何人工智能模型都可能在心理健康等话题上给出值得怀疑的建议,但一个过度谄媚的模型可能会表现出危险的顺从或说服力,比如在判断一项投资是否稳赚不赔,或者在讨论你应该追求多瘦的身材时。
OpenAI 表示:“最大的教训之一就是充分认识到人们已经开始使用 ChatGPT 来获取非常私人的建议了 —— 即使在一年前,我们也没有太多这样的发现。当时,这并不是主要关注点,但随着人工智能和社会的共同发展,很明显我们需要非常谨慎地对待这种应用场景。”
卡内基梅隆大学计算机科学助理教授马腾・萨普(Maarten Sap)表示,谄媚的大型语言模型可能会强化偏见,使人们的信念更加坚定,无论是关于自己还是他人的信念。他说,大型语言模型(LLM)“如果这些观点有害,或者当人们想要采取对自己或他人有害的行动时,最终可能会助长他们的观点”。
高德纳咨询公司(Gartner)的杰出副总裁分析师阿伦・钱德拉塞卡兰(Arun Chandrasekaran)表示,这个问题 “不仅仅是一个小毛病”,它表明在向公众发布模型之前需要进行更好的测试。他说:“这是一个与真实性、可靠性和用户信任相关的严重问题,OpenAI 的更新暗示了他们为解决这个问题所做的更深入努力,尽管长期以来一直存在着优先考虑敏捷性而非安全性的趋势,这是一个令人担忧的问题。”
OpenAI 如何测试模型以及正在做出的改变
该公司透露了一些关于其如何测试模型和更新的信息。这是针对 GPT-4o 的第五次重大更新,重点在于优化其个性和实用性。这些改动涉及对现有模型进行新的训练后工作或微调,包括对各种提示的回复进行评级和评估,以便更有可能产生评级较高的回复。
潜在的模型更新会在各种场景下评估其有用性,比如在编程和数学方面,同时还会由专家进行特定测试,以体验其在实际中的表现。该公司还会进行安全评估,以了解它对安全、健康和其他潜在危险查询的回复情况。最后,OpenAI 会对少量用户进行 A/B 测试,以了解它在现实世界中的表现。
4 月 25 日的更新在这些测试中表现良好,但一些专家测试人员指出其个性似乎有点不对劲。测试并没有专门针对谄媚问题,尽管测试人员提出了这些问题,OpenAI 还是决定推进更新。读者们请注意:人工智能公司都在火急火燎地赶进度,这并不总是与经过深思熟虑的产品开发相契合。
OpenAI 表示:“回过头来看,定性评估已经暗示了一些重要的问题,我们本应该更加关注。” 该公司表示,从这次事件中得到的教训之一是,它需要像对待其他安全问题一样对待模型行为问题,如果存在担忧,就应该停止发布。对于一些模型的发布,该公司表示会设置一个用户可选择加入的 “alpha” 阶段,以便在更广泛发布之前从用户那里获得更多反馈。
萨普表示,仅仅根据用户是否喜欢回复来评估一个大型语言模型,不一定能得到最诚实的聊天机器人。在最近的一项研究中,萨普和其他人发现聊天机器人的实用性和真实性之间存在冲突。他将其比作这样一种情况:人们被告知的不一定是真相,比如一个汽车销售员试图出售一辆有缺陷的汽车。
萨普说:“这里的问题是,他们信任用户对模型输出的点赞或差评反馈,但这存在一些局限性,因为人们很可能会给那些更谄媚的回复点赞。” 他还补充说,OpenAI 对用户点赞或差评等定量反馈持更批判的态度是正确的,因为这些反馈可能会强化偏见。
萨普还表示,这个问题也突显了公司向现有用户推送更新和改动的速度之快,而这个问题并不局限于某一家科技公司。他说:“科技行业真的采取了一种‘发布即测试,每个用户都是测试版测试员’的做事方式。” 在向用户推送更新之前进行更多测试的流程,可以在这些问题广泛传播之前将其暴露出来。
钱德拉塞卡兰表示,更多的测试会有所帮助,因为更好的校准可以教会模型何时同意、何时反驳。测试还可以让研究人员识别和衡量问题,并降低模型被操纵的可能性。他在一封电子邮件中说:“大型语言模型是复杂且非确定性的系统,这就是为什么广泛的测试对于减轻意外后果至关重要,尽管要消除这类行为极其困难。”
本文转载自CNET,本文观点不代表雅典娜AI助手YadiannaAI立场。