排行榜假象:大型科技公司如何在 “聊天机器人竞技场”(Chatbot Arena)上扭曲人工智能排名

来源:InfoWorld 作者:Gyana Swain

排行榜假象:大型科技公司如何在 “聊天机器人竞技场”(Chatbot Arena)上扭曲人工智能排名

据称,Meta、谷歌和 OpenAI 在 “聊天机器人竞技场” 上利用未公开的私下测试来确保高排名,这引发了人们对人工智能模型基准测试公平性和透明度的担忧。

一项新研究显示,少数几家占主导地位的人工智能公司一直在悄悄操纵最具影响力的聊天机器人模型公开排行榜之一,这可能扭曲了人们对模型性能的认知,并破坏了公开竞争。

这项名为《排行榜假象》的研究由来自 Cohere Labs、斯坦福大学、普林斯顿大学和其他机构的专家团队发表。该研究仔细审查了 “聊天机器人竞技场” 的运作情况。这是一个广泛使用的公共平台,用户可以通过对模型针对用户提示做出的回复进行两两投票,来比较生成式人工智能模型。

研究显示,包括 Meta、谷歌和 OpenAI 在内的大型科技公司,获得了在 “聊天机器人竞技场” 上私下测试其多个版本人工智能模型的特权。研究发现,通过有选择地只发布表现最佳的版本,这些公司得以提升自己的排名。

研究指出:“目前,‘聊天机器人竞技场’允许一小部分受优待的供应商私下测试多个模型,并且只提交最终优选版本的分数。”

“聊天机器人竞技场”、谷歌、Meta 和 OpenAI 均未回应就该研究发表评论的请求。

私下测试特权扭曲排名

“聊天机器人竞技场” 于 2023 年推出,通过两两人工比较的方式,迅速成为评估生成式人工智能模型的首选公开基准平台。然而,这项新研究揭示了一些系统性缺陷,损害了该平台的公正性,其中最明显的是部分开发者能够进行未公开的私下测试。

据报道,在发布 Llama 4 之前的一个月里,Meta 测试了 27 个不同的大型语言模型变体。谷歌和亚马逊也提交了多个未公开的变体。相比之下,大多数小型公司和学术实验室只提交了一两个公开模型,他们并不知道还能进行这种幕后评估。

研究人员认为,这种 “N 中选优” 的提交策略违反了布拉德利 – 特里模型(Bradley-Terry model)的统计假设,而 “聊天机器人竞技场” 正是使用该算法,根据两两比较的结果对人工智能系统进行排名。

为了证明这种做法的影响,研究人员在 “聊天机器人竞技场” 上进行了自己的实验。在一个案例中,他们用不同的别名提交了同一个模型的两个相同的检查点。尽管在功能上完全相同,但这两个版本得到的分数却大不相同 —— 在排行榜上相差 17 分。

在另一个案例中,提交了同一个模型的两个略有不同的版本。那个与 “聊天机器人竞技场” 的反馈动态稍微更契合的变体,得分比另一个高出近 40 分,最终排名中还有 9 个模型介于这两个版本之间。

数据获取的不均衡

排行榜的扭曲不仅仅体现在测试特权上。该研究还凸显了数据获取方面的巨大不平衡。“聊天机器人竞技场” 在每次模型比较过程中都会收集用户交互和反馈数据,这些数据对于训练和微调模型至关重要。

像 OpenAI 和谷歌这样的专有大型语言模型供应商获得了这一数据中不成比例的一大部分。根据研究,OpenAI 和谷歌分别获得了 “竞技场” 所有数据的约 19.2% 和 20.4%。相比之下,83 个开放权重模型只共享了 29.7% 的数据。完全开源的模型(其中包括许多来自学术和非营利组织的模型)总共只获得了全部数据的 8.8%。

这种不均衡的分布源于优先采样率,即专有模型更频繁地展示给用户,也源于不透明的弃用做法。研究发现,243 个公开模型中有 205 个被悄悄弃用 —— 这意味着它们在没有通知的情况下被从平台上移除或边缘化 —— 而且开源模型受到的影响尤为严重。

研究指出:“弃用对开放权重模型和开源模型的影响尤为严重,随着时间的推移,在数据获取方面造成了巨大的不对称。”

这些情况不仅有利于大型公司,也使得新进入者或小型公司更难收集到足够的反馈数据来改进或公平竞争。

排行榜分数并不总能反映真实世界的能力

该研究的一个关键发现是,获取 “聊天机器人竞技场” 特定的数据可以显著提升模型的性能,但这仅仅局限于排行榜自身的范围内。

在控制实验中,研究人员使用不同比例的 “聊天机器人竞技场” 数据来训练模型。当 70% 的训练数据来自 “竞技场” 时,模型在 ArenaHard(一个模拟 “竞技场” 数据分布的基准集)上的性能提升了一倍多,胜率从 23.5% 提高到了 49.9%。

然而,这种性能提升并没有转化为在更广泛的学术基准测试(如大规模多任务语言理解测试,即 MMLU)中的优势。MMLU 是一个通过评估模型来衡量预训练期间所获取知识的基准测试。事实上,模型在 MMLU 上的结果略有下降,这表明这些模型只是狭隘地针对 “竞技场” 环境进行了调整。

研究警告称:“通过选择性的数据和测试带来的排行榜上的提升,并不一定反映出模型质量在更广泛意义上的进步。”

呼吁透明度和改革

该研究的作者表示,这些发现凸显了对公共人工智能基准测试管理方式进行改革的迫切需求。

他们呼吁提高透明度,敦促 “聊天机器人竞技场” 的组织者禁止撤回分数,限制私下测试变体的数量,并确保各供应商之间的采样率公平。他们还建议排行榜维护并公布被弃用模型的完整日志,以确保透明度和问责制。

研究补充道:“允许少数受优待的供应商有选择地披露结果,没有合理的科学依据。这会使‘竞技场’的分数虚高,并让少数受优待的供应商得以操纵排行榜。”

研究人员承认,“聊天机器人竞技场” 推出时初衷是好的 —— 在人工智能快速发展的时期提供一个动态的、由社区驱动的基准测试平台。但他们认为,一系列的政策选择以及来自商业利益的压力与日俱增,已经损害了该平台的中立性。

尽管 “聊天机器人竞技场” 的组织者此前已经承认需要更好的管理,包括在 2024 年末发布的一篇博客文章中有所提及,但该研究表明,目前的努力还不足以解决系统性偏见问题。

这对人工智能行业意味着什么?

这些揭露出来的问题正值生成式人工智能模型在商业、政府和社会中发挥着越来越核心的作用之际。评估用于部署的人工智能系统的组织 —— 从聊天机器人和客户支持到代码生成和文档分析 —— 通常依赖公开基准测试来指导采购和采用决策。

如果这些基准测试不可靠,那么依赖它们做出的决策也会受到影响。

研究人员警告称,基于 “聊天机器人竞技场” 排名所形成的对模型优越性的认知可能具有误导性,尤其是当高排名更多地受到内部数据获取和策略性披露的影响,而非实际创新时。

研究指出:“扭曲的排行榜不只是误导了开发者,它误导了所有寄希望于人工智能未来的人。”

本文转载自InfoWorld,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 3天前
下一篇 2天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信