来源:Princeton

On Feb. 28, nearly 1,500 scientists across 12 Department of Energy (DOE) national labs joined together on Zoom to work simultaneously in a “jam session” with the goal of probing the capabilities and limits of the latest advanced reasoning models. (Photo credit: Michael Livingston/PPPL Communications Department)
Allison Gasparini,人工智能实验室和统计与机器学习中心
2025年3月26日
2月28日,来自普林斯顿等离子体物理实验室和普林斯顿大学的80多名研究人员聚集在刘易斯科学图书馆,测试一些最新的人工智能工具。通过Zoom,12个能源部(DOE)国家实验室的近1500名科学家加入了普林斯顿小组。国家研究人员网络在一次“即场会议”中同时合作,以探究高级推理模型的能力和局限性。
Shantenu Jha说:“这是对有史以来最新和最伟大的人工智能系统的最大并发评估之一。”,PPPL的计算科学主管。
该会议由普林斯顿人工智能实验室共同赞助,其目标是更深入地了解最新人工智能模型为科学发现做出贡献和帮助的能力。即兴演奏会的参与者获得了OpenAI的推理模型,这些模型是为执行复杂任务而构建的专业语言模型。Jha说:“重要的是要认识到我们正在测试的模型不仅仅是普通的ChatGPT。”
总体而言,Jha估计,仅PPPL成员一天内完成的计算量就可能价值约100万美元。Jha说:“我们正在以不使用OpenAI的方式对这些模型进行压力测试。”

Shantenu Jha (standing), the head of computational sciences at PPPL, helped to oversee the jam session, for which participants were given free access to OpenAI’s reasoning models. (Photo credit: Michael Livingston/PPPL Communications Department)
OpenAI邀请了国家实验室的科学家、研究人员和工程师使用一系列工具解决他们的研究问题。当科学家们使用模型时,他们填写了评估表,对复杂的研究问题对经验和模型性能进行评级。
阿尔瓦罗·桑切斯-维拉尔,PPPL的副研究物理学家,来到即兴演奏会,希望利用他与模型的时间来测试它们在推导与等离子体中波现象相关的数学表达式时的严谨性。他过去曾测试过旧型号,发现它们未能得出更简单的问题。在即兴演奏会上,Sanchez-Villar发现较新的车型总体上是一个重大的改进。但他仍然达到了极限。Sanchez-Villar说:“当说到复杂的概念时,该模型表现出一种数学直觉,因为它有时会找到正确的函数。”“但实际的方程远非正确。”
Sanchez-Villar表示,在未来,他相信如果不同的模型针对不同的主题进行深度培训,而不是一个模型来完成所有不同的任务,人工智能模型将得到改进。Sanchez-Villar说:“在我看来,这些模型正在迅速进步,但仍然远非你解决高度专业化的科学课题所需的水平。”“也就是说,我们正在处理非常利基的话题,这些话题通常被全球几百名专家深入理解,因此我们观察到的表现仍然令人印象深刻。”
总体而言,Sanchez-Villar对这些工具在推进科学发现方面持续帮助的潜力感到乐观。Sanchez-Villar说:“推理技术表现良好,与以前的模型相比,这是一个明显的改进。”“我期待着看到它在未来如何继续发展。”
Yueling Ma,High Meadows环境研究所的博士后研究员在普林斯顿大学,她还花时间在即兴演奏会上测试OpenAI的o3-mini高工具。在她自己的研究中,Ma使用机器学习工具进行大规模地下水建模。
在会议期间使用o3-mini high时,Ma说,她发现虽然该工具对如何设计代码有想法,但生成的代码最终充满了错误,如果不自己手动调试,就很难运行。马说:“我觉得这些模型可以解决一些问题,但这些工具总是有一些限制。”
尽管如此,根据过去几年人工智能模型的增长,她看到了一个未来,工具只会改善其局限性。“我很乐观,”她说。“我觉得这些工具会越来越强大。”
Sanchez-Villar说:“这次即兴演奏会是一个展示这些模型能做什么并测试它们与我们的实验和理论工作的绝佳机会。”
通过评估关于PPPL和普林斯顿研究人员今天感兴趣的科学问题的最新人工智能工具,Jha希望未来的模型将更加符合加速校园发生的科学发现。
Jha说:“事实上,我们的问题,无论好坏还是丑陋,都被考虑在了,这样下一代工具才能回应我们的问题,这已经不是平凡的了。”“这可能对我们今天的科学没有帮助,但从长远来看,下一个系统将利用我们感兴趣的科学问题来改进这一事实将对我们有所帮助。”
本文转载自Princeton,本文观点不代表雅典娜AI助手YadiannaAI立场。