据新智元消息,最近,由北大物理学院、人工智能研究院、计算科学研究中心、集成电路学院和元培学院共同组成的「天团」,推出了一个用于评估大语言模型在物理情境中的推理能力的高质量基准——PHYBench。
值得一提的是,这其中有很多人都是物理竞赛金牌得主。
论文地址:https://arxiv.org/abs/2504.16074
具体来说,PHYBench包含500个精心挑选的基于现实的物理问题。
涵盖了力学、电磁学、热力学、光学、现代物理学和高级物理学等领域,难度从高中习题到大学生问题,再到物理奥林匹克挑战题目不等。