为什么研究人员关心小型语言模型?

来源:Quanta 作者:Stephen Ornes

为什么研究人员关心小型语言模型?

大型语言模型很好用,因为它们非常大。OpenAI、Meta和DeepSeek的最新模型使用数千亿个“参数”——这些可调节的选项决定了数据之间的连接,并在训练过程中进行调整。有了更多的参数,模型能够更好地识别模式和连接,这反过来又使它们更强大、更准确。

但这种力量是有代价的,训练一个拥有数千亿个参数的模型需要大量的计算资源。例如,谷歌为了训练Gemini 1.0 Ultra模型,据报道,谷歌花费了1.91亿美元。大型语言模型(LLM)每次响应请求时也需要相当大的计算能力。根据电力研究所的数据,对ChatGPT的单次查询消耗的能源大约是谷歌搜索的10倍。

作为回应,一些研究人员现在想得很小。IBM、谷歌、微软和OpenAI最近都发布了小型语言模型(SLM),这些模型使用数十亿个参数——仅为LLM对应参数的一小部分。

小型模型不像大模型那样用作通用工具。但他们可以在具体、定义更狭窄的任务中表现出色,例如总结对话、作为医疗保健聊天机器人回答患者问题以及在智能设备中收集数据。卡内基梅隆大学的计算机科学家Zico Kolter说:“对于许多任务来说,80亿个参数模型实际上相当不错。”它们也可以在笔记本电脑或手机上运行,而不是在大型数据中心上运行。(关于“小”的确切定义没有共识,但新模型都达到了100亿个参数。)

为了优化这些小模型的训练过程,研究人员使用了一些技巧。大模型经常从互联网上抓取原始训练数据,这些数据可能杂乱无章、混乱且难以处理。但这些大模型随后可以生成一个高质量的数据集,可用于训练小型模型。这种方法被称为知识提炼,让更大的模型有效地传递其培训,就像老师给学生上课一样。Kolter说:“小模型之所以如此擅长使用如此少的数据,是因为它们使用高质量的数据,而不是杂乱无章的东西。”

研究人员还探索了创建小模型的方法,从大模型开始,然后将它们修剪下来。一种被称为修剪的方法,需要删除神经网络中不必要的或低效的部分——作为大型模型的连接数据点的广阔网络。

修剪的灵感来自现实生活中的神经网络——人脑,随着人年龄的增长,通过剪切连接来提高效率。今天的修剪方法可以追溯到1989年的一篇论文,其中计算机科学家Yann LeCun(现在在Meta)认为,经过训练的神经网络中高达90%的参数可以在不牺牲效率的情况下被删除。他称这种方法为“最佳脑损伤”。修剪可以帮助研究人员针对特定任务或环境微调小型语言模型。

于对语言模型如何做他们做感兴趣的的事情,研究人员认为,较小的模型提供了一种测试新颖想法的廉价方法。由于它们的参数比大型模型少,它们的推理可能更透明。麻省理工学院-IBM沃森人工智能实验室的研究科学家Leshem Choshen说:“如果你想制作一个新模型,你需要尝试一些东西。”“小型模型允许研究人员用较低的成本进行实验。”

大型、昂贵的模型及其不断增加的参数,对于通用聊天机器人、图像生成器和药物发现等应用程序仍然很有用。但对许多用户来说,一个小型的、有针对性的模型同样有效,同时更容易让研究人员进行培训和构建。Choshen说:“这些高效的模型可以节省金钱、时间和计算资源。”

本文转载自Quanta,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 2025年4月21日 下午9:10
下一篇 2025年4月21日 下午10:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信