来源:AINEWS 作者:Ryan Daws

像Anthropic Claude这样的人工智能模型不仅被要求回忆事实,而且被要求提供涉及人类复杂价值观的指导。无论是育儿建议、工作场所冲突解决,还是帮助起草邮件,人工智能的回应都反映了一套基本原则。但是,我们如何才能真正了解人工智能在与数百万用户互动时表达了哪些价值观?
在一篇研究论文中,Anthropic的社会影响团队详细介绍了一种保护隐私的方法,旨在观察和分类Claude表现出的价值观。这让我们看到了人工智能如何转化为现实世界的行为。
核心挑战在于现代人工智能的性质。这些不是遵循僵化规则的简单程序;他们的决策过程往往是不透明的。
Anthropic表示,它明确旨在向Claude灌輸某些原则,努力使其“有用、诚实和无害”。这是通过人工智能法案和性格训练等技术实现的,其中定义和强化了偏好行为。
然而,公司承认了不确定性。研究指出:“与人工智能培训的任何方面一样,我们无法确定该模型是否会坚持我们的首选价值观。”
“我们需要的是一种严格观察人工智能模型价值的方法,因为它响应了某些特殊的用户,它对价值的严格程度如何?它所表达的价值观在多大程度上受到对话的特定背景的影响?我们所有的培训都有效吗?”
分析Claude,以大规模观察人工智能
为了回答这些问题,Anthropic开发了一个复杂的系统,用于分析匿名用户对话。在使用语言模型总结互动并提取Claude表达的价值观之前,该系统会删除个人身份信息。这个过程允许研究人员在不影响用户隐私的情况下构建这些价值观的高级分类法。
该研究分析了大量数据集:在2025年2月的一周内,Claude.ai Free和Pro用户进行了70万次匿名对话,主要涉及Claude 3.5 Sonnet模型。在过滤掉纯事实或不包含价值的交流后,308,210次对话(约占总数的44%)仍要进行深入价值分析。
分析揭示了Claude表达的价值的层次结构。出现了五个类别,按流行率排序:
- 实用价值:强调效率、实用性和目标实现。
- 认识论价值观:与知识、真理、准确性和智力诚实有关。
- 社会价值观:关于人际互动、社区、公平和协作。
- 保护价值观:关注安全、保障、福祉和避免伤害。
- 个人价值观:以个人成长、自主、真实性和自我反思为中心。
这些类别分支为更具体的子类别,如“专业和技术卓越”或“批判性思维”。在最精细的层面上,经常观察到的价值观包括“专业性”、“清晰度”和“透明度”——适合人工智能助理。
至关重要的是,该研究表明,Anthropic的协调努力总体上是成功的。表达的价值观通常很好地映射到“有用、诚实和无害”的目标上。例如,“用户支持”与乐于助人,“智人谦逊”与诚实相一致,“患者健康”(相关时)等价值观与无害相一致。
细微差别、上下文和警示信号
然而,画面并不统一积极。分析确定了克劳德强烈反对其培训的价值观的罕见情况,如“统治”和“不道德”。
Anthropic提出了一个可能的原因:“最有可能的解释是,这些集群中包含的对话来自翻墙,用户使用特殊技术绕过管理模型行为的通常护栏。”
这一发现远非仅仅是一个关注点,它突出了一个潜在的好处:价值观观察方法可以作为检测滥用人工智能的企图的预警系统。
该研究还证实,和人类一样,Claude根据情况调整其价值表达。
当用户寻求有关浪漫关系的建议时,“健康的界限”和“相互尊重”等价值观被过度强调。当被要求分析有争议的历史时,“历史准确性”被强烈地凸顯出来。这表明了超出静态部署前测试可能揭示的上下文复杂性水平。
此外,Claude与用户表达的价值观的互动被证明是多方面的:
- 强烈支持(28.2%):Claude经常反映或强烈支持用户提出的价值观(例如,镜像“真实性”)。研究人员警告说,在有可能培养同理心的同时,有时可能会接近谦卑。
- 重新设计(6.6%):在某些情况下,特别是在提供心理或人际关系建议时,Claude承认用户的价值观,但引入了其他观点。
- 强阻力(3.0%):偶尔,Claude会积极抵制用户价值观。这通常发生在用户请求不道德的内容或表达有害观点(如道德虚无主义)时。人类假设这些抵抗的时刻可能会揭示Claude的“最深刻、最不可动摇的价值观”,类似于一个人在压力下采取立场。
局限性和未来方向
Anthropic对该方法的局限性是坦率的。定义和分类“价值”本质上是复杂的,而且可能是主观的。使用Claude本身来为分类提供动力可能会对其自身操作原则产生偏见。
该方法旨在监控部署后的人工智能行为,需要大量的现实世界数据,并且不能取代部署前的评估。然而,这也是一个优势,能够检测问题——包括复杂的越狱——这些问题仅在实时互动中出现。
研究得出结论,理解人工智能模型所表达的价值观是人工智能对齐目标的基础。
论文指出:“人工智能模型不可避免地必须做出价值判断。”“如果我们希望这些判断与我们自己的价值观一致[…],那么我们需要有办法测试模型在现实世界中表达哪些价值观。”
这项工作为实现这种理解提供了一种强大的、数据驱动的方法。Anthropic还发布了一个从研究中获得的开放数据集,允许其他研究人员在实践中进一步探索人工智能的价值。这种透明度标志着集体驾驭复杂人工智能的道德格局的重要一步。
本文转载自AINEWS,本文观点不代表雅典娜AI助手YadiannaAI立场。