DeepSeek通过自我改进模型为下一次人工智能颠覆做准备

来源:Digitaltrends 作者:Nadeem Sarwar 

DeepSeek通过自我改进模型为下一次人工智能颠覆做准备

就在几个月前,当DeepSeek问世时,华尔街对生成人工智能的重大赌注得到了清算。尽管其受到严格审查的性质,但开源的DeepSeek证明了前沿推理人工智能模型不一定需要数十亿美元,并且可以用有限的资源来拉动。

它很快被华为、Oppo和Vivo等巨头商业化采用,而微软、阿里巴巴和腾讯等公司很快在他们的平台上给了它一席之地。现在,这家热闹的中国公司的下一个目标是自我改进的人工智能模型,该模型使用循环判断奖励方法来提高自己。

在一篇预印论文(通过彭博社)中,DeepSeek和中国清华大学的研究人员描述了一种新方法,该方法可以使人工智能模型以自我改进的方式更加智能和高效。基础技术被称为自我原则批评调谐(SPCT),该方法在技术上被称为生成奖励建模(GRM)。

用最简单的术语来说,这有点像实时创建反馈循环。通过在训练期间扩大模型的大小,从根本上改进了人工智能模型。这需要大量的人力和计算资源。DeepSeek正在提出一个系统,在准备对用户查询的答案时,底层的“判断”对人工智能模型有自己的一套批评和原则。

然后,将这组批评和原则与人工智能模型核心的静态规则和预期结果进行比较。如果有高度匹配,就会产生奖励信号,这有效地引导人工智能在下一个周期中表现更好。

论文背后的专家将下一代自我改进的人工智能模型称为DeepSeek-GRM。论文中列出的基准表明,这些模型的性能比谷歌的Gemini、Meta的Llama和OpenAI的GPT-4o模型更好。DeepSeek表示,这些下一代人工智能模型将通过开源渠道发布。

自我改进的人工智能?

人工智能可以自我改进的话题引起了一些雄心勃勃和有争议的言论。前谷歌首席执行官埃里克·施密特(Eric Schmidt)认为,我们可能需要为此类系统提供终止开关。《财富》援引施密特的话说:“当系统能够自我改进时,我们需要认真考虑拔掉插头。”

递归自我改进的人工智能的概念并不完全是一个新颖的概念。超智能机器的想法,随后能够制造出更好的机器,实际上可以追溯到数学家 I.J. Good back 1965年。2007年,人工智能专家Eliezer Yudkowsky假设了种子人工智能,这种人工智能“旨在自我理解、自我修改和递归自我改进”。

2024年,日本的Sakana AI详细介绍了“人工智能科学家”的概念,即一个能够从头到尾通过研究论文的整个管道的系统。在今年3月发表的一篇研究论文中,Meta的专家揭示了自我奖励的语言模型,其中人工智能本身充当评判者,在培训期间提供奖励。

Meta使用新颖的自我奖励技术对其Llama 2 AI模型的内部测试,使其优于Anthropic的Claude 2、Google的Gemini Pro和OpenAI的GPT-4模型等竞争对手。亚马逊支持的Anthropic详细介绍了他们所谓的奖励篡改,这是一个意想不到的过程,“模型直接修改自己的奖励机制”。

谷歌在这个想法上并没有太落后。在本月早些时候发表在《自然》杂志上的一项研究中,谷歌DeepMind的专家展示了一种名为Dreamer的人工智能算法,该算法可以自我改进,以《我的世界》游戏为例。

IBM的专家正在研究他们自己的方法,称为演绎闭包训练,其中人工智能模型使用自己的响应,并根据训练数据对其进行评估,以自我改进。然而,整个前提并不全是阳光和彩虹。

研究表明,当人工智能模型试图在自生成的合成数据上进行自我训练时,会导致俗称“模型崩溃”的缺陷。看看DeepSeek如何执行这个想法,以及它是否能以比西方竞争对手更节俭的方式做到这一点,这会很有趣。

本文转载自Digitaltrends,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 2025年4月9日 上午11:50
下一篇 2025年4月9日 下午4:14

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信