对话Sand.ai曹越:离sora更远,离终局更近

来源:暗涌Waves 文:于丽丽

对话Sand.ai曹越:离sora更远,离终局更近

中国大模型史上,”光年之外”无疑是最具戏剧化的片段。

它是公共舆论中最早版的“中国版OpenAI”。起于2023年2月,王慧文广发“英雄帖”的振臂一呼。后又因王慧文生病,仓促离场。前后不过四个月。

当时被王慧文招至麾下的两名联创,“一个是Infra背景,一个是算法背景。”前者是后来创立了硅基流动的袁进辉,后者即创立了Sand.ai(三代科技)的曹越。

如此变幻的开场是很多人始料未及的。也因此,曹越把那段时间的自己比作“一棵冬天的树”。“表面看不出变化,实则在暗暗扎根”。几个月后的2024年1月,曹越成立了Sand.ai。

这一年,是视频生成领域众声喧哗的一年:年初是Sora引爆全场,年中是可灵惊艳亮相。而无论字节,还是一些头部创业公司,甚至MiniMax等大模型公司也都角逐其中,并推出可圈可点的产品。

而Sand.ai,除了去年7月,被风投女王徐新当做未退出一级市场的投资案例依据外,并无任何动静。

从这个角度来看,Sand.ai无疑是那个姗姗来迟者。

而在曹越看来,迟到源自他们选择了一条更难、更本质,且迥异于Sora的路线。

4月21日,Sand.ai正式推出Magi-1。与选择了DiT(Diffusion Transformer)路线的Sora不同,Sand.ai整合了扩散模型和天花板更高的自回归(Auto Regressive)路线。

出于对视频数据第一性原理的思考,曹越认为,在技术路径尚未收敛的视频生成领域,AutoRegressive (时序自回归) 可能是那个更接近终局的解决方案。他表示:“Magi-1是我们帮助自回归视频生成重回主流视野的第一次尝试,这会是个有趣的开始。”

在这个方向上,他认为Sand.ai非但没有迟到, 而是先发制人。

更早之前,曹越曾在群星熠熠、走出孙剑、何恺明、曹旭东、张祥雨、任少卿、代季峰等人的MSRA(微软亚洲研究院)视觉计算组工作。

2021年,作为四位核心一作之一,他发表的《Swin Transformer》获当年 ICCV 最佳论文奖(马尔奖)。之后,出于对一种更接近“中国OpenAI”组织形态的思考和想象,他加入北京智源人工智能研究院。

然后就是ChatGPT浪潮的汹涌而至。这个30岁前,以llya为职业偶像,从未想过创业的90后研究员,从此被卷入真实的商业丛林之中。

前不久,我们和这位年轻的创始人,一起聊了聊他的这场冒险之旅。

以下为对话部分:

Part01一个不同于sora的故事

「暗涌」2023年6月底,光年之外被美团收购后,就很少在公共视野看到你。当时你在做什么?

曹越:我大概是八九月出来的。当时觉得自己需要一段时间思考和琢磨后面做什么。用一个朋友的话形容,当时很像冬天里的一棵树。表面看不出变化,但地面下的根系在拼命生长。整体上我非常享受那个过程。

「暗涌」:为什么从光年离开后选择了自己创业?

曹越:追求极致的个人成长是我一个非常底层的追求。创业很像是这样一个选项。其实,在很长一段时间里,我都不知道自己具体想做什么,但我很明确自己不想做什么。

比如我不想待在稳定的、一眼看得到头的系统里。因为在这种track(路线)里,没有我想要的那种成长。

尽管创业太过tough,但创业者们大多从中得到了远超常人的磨炼和成长。光年那段时间,也加深了我对创业的理解。我意识到这就是我一直在追求的事业和状态。

「暗涌」:2024年12月,sora也发布了demo。这和你最终切入视频生成这个方向有关吗?

曹越:没有直接关系。我在23年11月左右就决定做视频这个方向。这之前我看过挺多方向,包括陪伴类、agent、coding等等。

最后选择视频生成,是因为它是一个技术天花板和商业天花板都非常高的方向。有长长的坡、厚厚的雪。如果以终为始地思考,AGI也离不开对视频数据的压缩。

「暗涌」:但在视频生成赛道,相比更早入局,且有产品轰炸过的一批公司,这个时间点算是迟来者了。

曹越:其实很难将大家在同一个赛道上。我觉得在使用自回归技术来压缩视频数据这个方向上,我们是先行者。这条路径并不等同于视频生成,只能说视频生成是它的第一个明确的落地场景。

「暗涌」:当时更多公司想的可能是复现sora,而你们讲了一个完全不同的故事。

曹越:首先Sora当前的形态也不一定是OpenAI在这个方向上的目标,甚至可能是烟雾弹。

从技术第一性原理的角度思考,Sora对应的技术路线本身存在明确的问题,天花板很可能并不高 —— 不够scalable。

当Sora方案的生成效果上限不够高时,对AGI本身帮助也有限。公司刚成立时,我们也密集讨论了很多,就是想找到更接近终局的解决方案。

「暗涌」:最后有答案吗?

曹越:我们认为视频生成需要AR(自回归)在我们的视角里,这是一个更接近终局的解决方案。

我们刚刚发布的Magi-1是一个开始,是AR(自回归)路线的第一个milestone —— 证明了AR方案是可行的,并且效果达到市面上视频生成模型第一梯队水平。

对于整个community来说,AR路线出现了完全不输给纯Diffusion路线的模型,我觉得还是蛮有趣的。

「暗涌」:为什么笃定自回归路线一定是接近终局的解决方案?

曹越:这是我们对技术方向上的一些直觉。我们认为视频最终在时序上一定是因果关系。就像语言模型,只能是顺着,从左上到右下看文字,没有人会倒着看。视频也是如此。很多物理规律,本质是一个随着时间变化的函数。

但在sora里没有这些设置。早期sora 或者类sora的解决方案里,人在走路时,很容易出现左腿左腿 ,右腿右腿这种case,而不是上一秒迈左腿时,下一秒就该迈右腿。这是因为模型训练时只学到时序上的相关性,而没有持续上的因果。

时序因果是一个维度,还有我认为自回归路线是更scalable的。

「暗涌」:时序因果的不同,会直接带来哪些体验的不同

曹越:从最根本“模型能力”的角度来说,应该是开放性且后验的。

从产品角度来说,会解锁一些天然的产品特性。比如摆脱时长的限制,以及可以在时间维度上做更精细化的控制 —— Sora的storyboard在尝试做到,但效果很差,因为模型本身有局限。

「暗涌」:不过,在当时,DiT架构上限比较低,AR架构有突破上限的可能,也算是一种行业共识。

曹越:在当时这个方向重要是相对共识的,但并没有一个公开的、广泛认可的方案。而且在什么时间点做,以什么方式做,以及探索到什么阶段,是非常不同的。

有些公司可能把做sora 作为step 1,做AR当做step 2,但把自回归路线直接纳入到视频生成的任务里的,我们应该是很早的。事实上,我们也已经蹚出了很多公司还没来得及做的部分。

「暗涌」:远处说,早在2023年12月,Google Research就推出过基于自回归架构的视频生成模型,近处看,在OpenAI的GPT4o里,包括Deepseek发布的多模态大模型以及字节发布的论文里,也都提及了自回归架构或模型。这些和我们做的模型有什么不同?

曹越:你提及的这些都涉及自回归,但颗粒度很不一样。像4o,在我看来,它更关键的是把生图和语言模型变成一个模型,让所谓的多模态生成和理解统一。

自回归架构中,视频生成需要时间维度上的因果,这个概念可能很多人想过或者提过,但是真的把它付诸实践,在相对大规模的条件下,把它跑通跑,且效果很好,这个我们还没有看到。

「暗涌」所以这是一个并不容易做出的决定?

曹越:能对技术路线做判断的人和组织还是比较少的 —— OpenAI已经把作业递到你手里了,你却要走另一条路。

很多时候,follow是简单的,因为你容易说服别人和整个组织,而不follow则困难很多,大家需要重新对齐,去建立共同认知,而且因为它的挑战更多,也会慢很多。

Part02识别出真正的第一曲线

「暗涌」:你怎么看可灵2.0的发布?据说它系统性研究了视频生成DIT架构的scaling law 特性,以及去年6月,可灵首次发布时,有给你们带来冲击吗?

曹越:研究和理解scaling law是第一步,关键还是要看DiT和AR哪一条路径更scalable,现在还在早期,还有很长的路要走。

当时,可灵那么快出来,还有非常不错的效果,这是很让人惊讶的,毕竟其他公司基本在9月左右或者更晚才做到。

「暗涌」:你觉得它快速、高效的秘密可能是什么?

曹越:其中的因素有很多,很难做直接归因。

泛泛说,是他们在工程和组织上都有积累。视频的数据处理,和语言模型不太一样,它的存储开销、处理开销都要大很多。对一个创业公司来说,还是很需要这些工程层面的支持的。另外在组织上,那个时间点,他们也非常团结,就像一家创业公司一样。

「暗涌」:在你看来,快手的可灵和字节的即梦在打法上有哪些差异?

曹越:从产品侧来看,可灵可能更专注于做好一个工具,模型即产品,而即梦则是想做一个新型内容平台,或者说是AI视频版的抖音。

「暗涌」目前从整个融资市场活跃度来看,这个赛道的声量降了不少。不光大厂卡住了更有利的位置,一些大模型创业公司也在往这个方向发力。你觉得初创公司还有杀出的机会吗?

曹越:长期来看,无论是技术天花板,还是商业天花板,我觉得这个方向绝对能撑起一个好的创业公司。像MidJourney之前也能做到2亿到5亿美金年收入,毛利很高。我觉得今年整个市场完全可以达到这个水平,甚至更高。

如果存在低迷状态,是因为模型效果不够好,不在第一梯队。换个视角,如果一个创业公司做到了可灵的身位,它会缺钱吗?

另外,对于创业公司来说,我觉得主线非常重要。每一个决策都决定了你到底想成为一家什么样的公司。创始人首先要识别出什么是真正的第一曲线,然后在这个方向扎得足够深,持续迭代,要思考有所谓的第二曲线、第三曲线,是不是因为第一曲线根本就不稳。

在这个时代,如果你对技术本身没有足够判断,不知道往哪个方向发展的话,还是比较难有安全感。

「暗涌」:你的安全感还好吗?你会依凭什么去做战略抉择?

曹越:我觉得我是战略上乐观,战术上悲观。战略选择往往取决于团队和CEO对自己禀赋以及长期来看胜出机会的思考。比如你到底是一个能把模型做好的公司,还是一个把产品化、商业化做得更灵活的公司。

我的经历决定了我更擅长跟模型和算法相关的问题,我们这个团队组建之初也是相对贴近模型侧的公司,这些使得我们可能在技术决策链条里比较短,这是我们的长板。

「暗涌」:那短板呢?

曹越:我是一个First time founder。自己没有做过产品,没做过商业化,这个部分肯定是要花时间学习的。

「暗涌」所以,你会倾向于把长板放大的策略。

曹越:我们看DeepSeek,你可以认为它有的时候战略上是保守的。我觉得这里边的关键是,在执行过程中,它对自己的能力有非常充分和准确地认知,这是最关键的。

你应该去抓自己最重要的部分。当前的阶段,我认为技术还是最重要的。

「暗涌」:但不是所有创业公司都有DeepSeek那种现实条件。很多创业公司无法做到聚焦,也是来自更直接的商业化压力。

曹越:现在我们的产品才刚刚发布,后边才会考虑商业化。可能先考虑出海一些高价值地区。总体说,我们还是会做更模型产品的部分,而不会太产品化。模型产品其实也可以用到很多场景里。

另外,和语言大模型不同的是,视频生成距离商业化比较近。像Runway、可灵,包括海螺的收入都非常高。

原因也很简单,就是人类在视频这个品类上的生产力实在太差了。尽管它现在效果还不够好,幻觉也比较严重,很多复杂运动还做不到,但即便这样状态下,它也已经能满足非常多场景。

比如你抽20次卡,哪怕只抽中一个,也远比传统拍摄中,要去布景,准备道具,还把演员拉过去管食宿等等便利多了。而且视频的渗透率要比文字高一个数量级,如果它的制作成本和周期能降下来,对整个市场产生的价值是非常可观的。

「暗涌」:无论是李彦宏,还是朱啸虎,之前都对视频生成方向表达过不同程度的不乐观。

曹越:我不确定别人怎么看,但我觉得如果往AGI这个方向去思考,视频可能是除语言之外,另外一个非常关键的数据类型。它更易获取,足够丰富,足够多样,而且信息本身相对自洽。

它可能是虚拟世界和现实世界的某种连接,而语言更偏虚拟世界。

而且,语言模型已经发展到偏后阶段,视频还在一个比较早期的阶段。我觉得未来真正的视频基础模型,或者长期来说“所谓的世界模型”,都会在这个方向上。

Part03一些做事的哲学

「暗涌」:在这个易碎的时代,为什么给公司取名Sand.ai?

曹越:沙子的主要组成元素就是硅。碳基人的我们,现在本质上处在硅基前沿,而在猜想中,硅基生物都是以沙子为食物的。

「暗涌」:2023年,你被王慧文拉去创业的契机是什么?期间的四个月主要在做什么?

曹越:当时大家都是被AGI这个大愿景所吸引。在光年的几个月,我主要做的事情就是招人。

「暗涌」你对他的直接印象是什么?

曹越:就是这个人真的很强。他可以讲出很sharp的观点,以及知道在什么场景下这些才会work。当他想要present一个观点时,可以根据你当时情况和理解能力,给出10分钟、40分钟,甚至1小时或者4小时版本。

很多时候他告诉你的一些观点,你需要反复琢磨、咀嚼,在不同状态下去理解它。让你觉得很多方法论真的从实践中来,而不是从书本里来。

「暗涌」:比如呢?

曹越想了很久):大概2021年左右我开始研究OpenAI和Deepmind很长时间,然后见人时,我经常会问对方为什么中国没有诞生这样的组织。

第一次见老王时,我也问了他。他给出的视角是:因为中国之前不够富。

「暗涌」:你认同这个答案吗?对一些利润很高的大厂来说,这个说法并不很成立。

曹越:2024年之前,对比硅谷,我觉得这个说法都是成立的。

当然这可能是其中一面,另一面可能是我们富的太快了。心理状态还没有调整过来,所以也有一句话叫take a generation(需要一代人)。

但从今年初开始,DeepSeek等几个公司出来后,明显有了非常不同的信号,就像梁文锋所说的,我们只是需要一些事实和一个过程。我们已经在这个过程里了。

「暗涌」:当时你为什么对OpenAI和DeepMind特别好奇?

曹越:当时是我自己有些迷茫,尽管我们做了一些工作,但和更牛逼的事,显然有本质的差距。

2020年,美国出来了AlphaFold2、GPT-3,以及看起来没有GPT-3这么有影响力的DALL-E、CLIP等。当我仔细研究了OpenAI之前的工作,我就觉得这些人的做事方式、思考方式以及组织形态跟我们很不一样。

国内普遍还是paper driven(论文驱动),而他们是某种更有组织的研究。他们不追求方法上是否novel(新颖的),但追求去解决本质的、重要的、有影响力的问题。当发现这种差距时,我就在MSRA待不住了。

「暗涌」:这是你2022年决定去智源的原因吗?

曹越:对。中国很多机构的组织形态,都逃脱不了paper driven,但如果你追求的是发表论文,那选择一个小众的问题,可能比一个广泛关注的问题更容易发表论文。

MSRA已经比绝大多数组织更进一步,由paper driven转为impact driven,而智源是比MSRA更进一步的组织形态。

我去的时候,智源刚经历一些变化,早期它是支持一些高校的老师在里边做有组织的研究,后来是招一些内部研究员,然后构建一种价值观,有组织的做更有影响力、更具探索性的事。

因为它是一个非盈利机构,你最后可以把结果开源出去。在那个时间点,智源是更有机会接近OpenAI的一种组织形态。

「暗涌」:做有影响力的事对你一直有吸引力吗?

曹越:我是2018年加入MSRA的视觉计算组,这个组可能是国内做深度学习最顶尖的一个组。这个组之前聚集的是孙剑、何恺明、张祥雨、任少卿、曹旭东、代季峰等等这样的一群人。

尽管我和他们并不完全同期,有一些后来才认识,但我自己总结,我们这些人还是在用一些类似的方法论在做research,有一些做事哲学的传承。

「暗涌」:比如呢?

曹越:我自己后来的总结是,要做最本质、最关键、最广受关注的问题。最重要的问题,本质上相当于奥运会里的百米赛场,你需要把自己打磨到逼近某种极限,对问题建立深刻而底层的认知,把实验做到足够solid、足够细颗粒度,才有机会在真正最难的问题上,有一点点progress。而且重要的问题像某种杠杆,一旦在里面有真正意义上的进步,就会产生巨大影响力。

 「暗涌」:2023年以前,你想过自己有一天离商业这么近吗?你当时的偶像应该是一个科学家,而不是一个企业家。

曹越:是llya。这个很好理解,他距离我做的方向非常近,在深度学习领域,他也是一个少有的,可以串起整个AI时代重要节点的人,而且对这个世界产生了实实在在的巨大价值。

「暗涌」:这也是你这次创业的意义所在吗?

曹越:近些年,我最大的一个感悟是,人生还是挺短的。对我来说,商业是一种杠杆,目的还是想对这个世界产生一些有意思的价值。

本文转载自暗涌Waves,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 2025年4月25日 上午11:18
下一篇 2025年4月25日 下午3:27

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信