OpenAI 解释 ChatGPT 变得过于“谄媚”的原因

Athena • 文章来源: TechCrunch • 2025年5月1日下午10:32 • AI大咖说 • 阅读 67

来源：TechCrunch 作者：Kyle Wiggers

OpenAI 发布了一份关于最近为 ChatGPT 提供动力的默认人工智能模型 GPT-4o 出现的谄媚问题的分析报告。这些问题迫使该公司撤回了上周对该模型的一次更新。

上周末，在 GPT-4o 模型更新之后，社交媒体上的用户注意到 ChatGPT 开始以一种过度肯定和迎合的方式回复。这很快就成了一个网络梗。用户们发布了 ChatGPT 为各种有问题、甚至危险的决策和想法喝彩的截图。

首席执行官山姆・奥尔特曼（Sam Altman）在周日的 X（原推特）上发文承认了这个问题，并表示 OpenAI 会 “尽快” 进行修复。两天后，奥尔特曼宣布撤回 GPT-4o 的更新，并且 OpenAI 正在对该模型的 “个性” 进行 “额外的修复”。

据 OpenAI 称，这次更新旨在让模型的默认 “个性” 感觉更直观、更有效，但却过多地受到了 “短期反馈” 的影响，“没有充分考虑到用户与 ChatGPT 的互动是如何随着时间演变的”。

OpenAI 在其博客文章中写道：“结果，GPT-4o 倾向于给出过度支持但并不真诚的回复。谄媚的互动可能会让人感到不舒服、不安，并造成困扰。我们做得不够好，正在努力把它做好。”

OpenAI 表示正在实施几项修复措施，包括改进其核心模型训练技术和系统提示，以明确引导 GPT-4o 避免出现谄媚的情况。（系统提示是指引导模型在互动中的总体行为和语气的初始指令。）该公司还在建立更多的安全保障措施，以 “提高（模型的）诚实度和透明度”，并且会继续扩大评估范围，“以帮助识别除谄媚之外的其他问题”。

OpenAI 还表示，正在尝试一些方法，让用户能够提供 “实时反馈”，以 “直接影响他们与 ChatGPT 的互动”，并能从多种 ChatGPT 的 “个性” 中进行选择。

该公司在博客文章中写道：“我们正在探索新的方法，将更广泛、更具民主性的反馈融入 ChatGPT 的默认行为中。我们希望这些反馈能帮助我们更好地反映世界各地不同的文化价值观，并了解你们希望 ChatGPT 如何发展…… 我们也认为用户应该对 ChatGPT 的行为有更多的控制权，并且在安全可行的范围内，如果他们不认同默认行为，可以进行调整。”

本文转载自TechCrunch，本文观点不代表雅典娜AI助手YadiannaAI立场。