来源：arstechnica 作者：RYAN WHITWAM

人工智能聊天机器人的迅速扩散，使得人们很难判断哪些模型真正在进步，哪些模型正在落后。传统的学术基准测试所能提供的信息有限，这导致许多人依赖 LM Arena 基于主观感受的分析。然而，一项新的研究声称，这个广受欢迎的人工智能排名平台充斥着不公平的做法，偏袒那些恰好位于排名前列的大公司。不过，该网站的运营者表示，这项研究得出了错误的结论。

LM Arena 于 2023 年作为加州大学伯克利分校的一个研究项目而创建。其原理很简单：用户在 “聊天机器人竞技场”（Chatbot Arena）中向两个未公开身份的人工智能模型输入一个提示，然后评估它们的输出，并投票选出自己更喜欢的那个。这些数据会被汇总到 LM Arena 的排行榜上，该排行榜显示出人们最喜欢的模型，有助于追踪人工智能模型的改进情况。

随着人工智能市场的升温，各公司对这个排名越来越关注。谷歌在发布 Gemini 2.5 Pro 时指出，该模型首次亮相就登上了 LM Arena 排行榜的榜首，并且一直保持至今。与此同时，今年早些时候，深度求索（DeepSeek）在聊天机器人竞技场中的出色表现，助力其在大型语言模型（LLM）竞赛中跃升至领先地位。

来自 Cohere Labs、普林斯顿大学和麻省理工学院的研究人员认为，人工智能开发者可能过于看重 LM Arena 的排名了。这项可在预印本平台 arXiv 上查阅的新研究称，竞技场的排名被一些做法扭曲了，这些做法使得专有聊天机器人比开源聊天机器人更容易取得优势。研究作者表示，LM Arena 允许专有大型语言模型（LLM）的开发者在平台上测试其人工智能的多个版本。然而，只有表现最佳的版本才会被列入公开的排行榜。

一些人工智能开发者正在极大地利用这种私下测试的选项。研究报告称，Meta 在发布 Llama-4 之前，测试了多达 27 个私下版本。谷歌也是 LM Arena 私下测试系统的受益者，在 2025 年 1 月至 3 月期间，谷歌测试了 10 个 Gemini 和 Gemma 的版本。

这项研究还批评了 LM Arena，认为它似乎对 Gemini、ChatGPT 和 Claude 等专有模型进行了更多的推广。开发者通过聊天机器人竞技场的应用程序编程接口（API）收集模型交互数据，但专注于开源模型的团队始终处于劣势。

研究人员指出，某些模型在竞技场的对决中出现的频率要高得多，谷歌和 OpenAI 的模型数据加起来占收集到的模型数据的 34% 以上。像 xAI、Meta 和亚马逊等公司的模型在竞技场中的占比也过高。因此，与开源模型的开发者相比，这些公司获得了更多基于主观评价的数据。

新研究指责 LM Arena 在其广受欢迎的人工智能基准测试中存在不正当行为

更多模型，更多评估

发表回复

联系我们

新研究指责 LM Arena 在其广受欢迎的人工智能基准测试中存在不正当行为

更多模型，更多评估

相关推荐

45%的中型市场公司报告增加了GenAI的使用

人工智能撰写科学论文是否可行？《Nature》调查显示研究者观点分歧

新工具评估深度强化学习的进展

斯坦福最新AI研究报告出炉 中美模型质量差距缩小至0.3%

大阪都立大学：AI平均诊断准确率为52.1%，大型语言模型显示出与医学领域非专业医生相当的潜力。

谷歌AI摘要功能引发行业震荡：点击率暴跌34.5%，内容生态面临重构危机

发表回复

联系我们

斯坦福最新AI研究报告出炉中美模型质量差距缩小至0.3%