OpenAI启动设计新的“特定领域”AI基准的计划

Athena • 文章来源: Techcrunch • 2025年4月10日上午9:02 • AI热点要闻 • 阅读 53

来源：Techcrunch 作者：Kyle Wiggers

OpenAI认为人工智能基准被打破了。现在，该公司正在启动一个计划，以修复人工智能模型的评分方式。

新的OpenAI先锋计划将专注于为人工智能模型创建评估，这些模型“为好的外观设定了标准”，正如OpenAI在博客文章中所说。

该公司在帖子中继续说：“随着各行业人工智能采用速度的加快，有必要了解和改善其在世界的影响。”“创建特定领域的评估是更好地反映现实世界用例的一种方式，帮助团队在实际、高风险的环境中评估模型性能。”

正如最近与众包基准LM Arena和Meta的Maverick模型的争议所说明的那样，如今很难知道究竟是什么将一个模型与另一个模型区分在一起。许多广泛使用的人工智能基准衡量深奥任务的表现，例如解决博士级数学问题。其他人可能会被游戏化，或者与大多数人的偏好不一致。

通过先锋计划，OpenAI希望为法律、金融、保险、医疗保健和会计等特定领域创造基准。该实验室表示，在未来几个月内，它将与“多家公司”合作，设计量身定制的基准，并最终公开分享这些基准，以及“特定行业”的评估。

OpenAI在博文中写道：“第一个队列将专注于初创企业，这些初创企业将帮助为OpenAI先锋计划奠定基础。”“我们正在为这个初始队列选择少数初创公司，每个公司都在研究人工智能可以推动现实世界影响的高价值应用用例。”

OpenAI表示，该计划中的公司还将有机会与OpenAI的团队合作，通过强化微调来创建模型改进，这种技术可以为一组狭窄的任务优化模型。

最大的问题是人工智能社区是否会接受由OpenAI资助的创建基准。OpenAI之前在财务上支持过基准测试工作，并设计了自己的评估。但与客户合作发布人工智能测试可能被视为过于道德上的桥梁。

本文转载自Techcrunch，本文观点不代表雅典娜AI助手YadiannaAI立场。

OpenAI启动设计新的“特定领域”AI基准的计划