新研究指责 LM Arena 在其广受欢迎的人工智能基准测试中存在不正当行为

来源:arstechnica 作者:RYAN WHITWAM 

新研究指责 LM Arena 在其广受欢迎的人工智能基准测试中存在不正当行为

人工智能聊天机器人的迅速扩散,使得人们很难判断哪些模型真正在进步,哪些模型正在落后。传统的学术基准测试所能提供的信息有限,这导致许多人依赖 LM Arena 基于主观感受的分析。然而,一项新的研究声称,这个广受欢迎的人工智能排名平台充斥着不公平的做法,偏袒那些恰好位于排名前列的大公司。不过,该网站的运营者表示,这项研究得出了错误的结论。

LM Arena 于 2023 年作为加州大学伯克利分校的一个研究项目而创建。其原理很简单:用户在 “聊天机器人竞技场”(Chatbot Arena)中向两个未公开身份的人工智能模型输入一个提示,然后评估它们的输出,并投票选出自己更喜欢的那个。这些数据会被汇总到 LM Arena 的排行榜上,该排行榜显示出人们最喜欢的模型,有助于追踪人工智能模型的改进情况。

随着人工智能市场的升温,各公司对这个排名越来越关注。谷歌在发布 Gemini 2.5 Pro 时指出,该模型首次亮相就登上了 LM Arena 排行榜的榜首,并且一直保持至今。与此同时,今年早些时候,深度求索(DeepSeek)在聊天机器人竞技场中的出色表现,助力其在大型语言模型(LLM)竞赛中跃升至领先地位。

来自 Cohere Labs、普林斯顿大学和麻省理工学院的研究人员认为,人工智能开发者可能过于看重 LM Arena 的排名了。这项可在预印本平台 arXiv 上查阅的新研究称,竞技场的排名被一些做法扭曲了,这些做法使得专有聊天机器人比开源聊天机器人更容易取得优势。研究作者表示,LM Arena 允许专有大型语言模型(LLM)的开发者在平台上测试其人工智能的多个版本。然而,只有表现最佳的版本才会被列入公开的排行榜。

一些人工智能开发者正在极大地利用这种私下测试的选项。研究报告称,Meta 在发布 Llama-4 之前,测试了多达 27 个私下版本。谷歌也是 LM Arena 私下测试系统的受益者,在 2025 年 1 月至 3 月期间,谷歌测试了 10 个 Gemini 和 Gemma 的版本。

这项研究还批评了 LM Arena,认为它似乎对 Gemini、ChatGPT 和 Claude 等专有模型进行了更多的推广。开发者通过聊天机器人竞技场的应用程序编程接口(API)收集模型交互数据,但专注于开源模型的团队始终处于劣势。

研究人员指出,某些模型在竞技场的对决中出现的频率要高得多,谷歌和 OpenAI 的模型数据加起来占收集到的模型数据的 34% 以上。像 xAI、Meta 和亚马逊等公司的模型在竞技场中的占比也过高。因此,与开源模型的开发者相比,这些公司获得了更多基于主观评价的数据。

更多模型,更多评估

该研究的作者提出了一系列建议,以使 LM Arena 更加公平。论文中的一些建议旨在纠正私下测试的商业模型存在的不平衡问题,例如,限制一个团队在发布模型之前可以添加和撤回的模型数量。研究还建议展示所有模型的结果,即使它们不是最终版本。

然而,该网站的运营者对论文的一些方法和结论存在异议。LM Arena 指出,预发布测试功能并非秘密,在 2024 年 3 月的一篇博客文章中就对该系统进行了简要说明。他们还认为,从技术层面上讲,模型创建者并不能选择展示哪个版本。相反,为了简化起见,网站只是不展示非公开版本。当开发者发布最终版本时,LM Arena 才会将其列入排行榜。

双方可能在不公平对决的问题上达成共识。研究作者呼吁进行公平抽样,以确保开源模型在聊天机器人竞技场中出现的频率与 Gemini 和 ChatGPT 等模型相近。LM Arena 表示将努力使抽样算法更加多样化,这样就不会总是出现大型商业模型。这将为小型参与者提供更多的评估数据,使他们有机会改进并挑战大型商业模型。

LM Arena 最近宣布将成立一个企业实体来继续其工作。考虑到其中涉及的利益,运营者需要确保聊天机器人竞技场在流行模型的开发过程中继续发挥作用。然而,与学术测试相比,目前尚不清楚这是否是一种客观上更好的评估聊天机器人的方式。由于人们是基于主观感受进行投票的,因此存在一种真实的可能性,即我们正在促使模型养成迎合用户的倾向。这可能在最近几周促使 ChatGPT 走向了过度迎合用户的方向,在引发广泛不满后,OpenAI 迅速撤回了相关改变。

本文转载自arstechnica,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 20小时前
下一篇 19小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信