来源:Techcrunch 作者:Kyle Wiggers

一家新公司Deep Cogito已经从隐身中脱颖而出,拥有一系列公开可用的人工智能模型,可以在“推理”和非推理模式之间切换。
像OpenAI的o1这样的推理模型在数学和物理等领域显示出了巨大的前景,这要归功于它们通过逐步解决复杂问题来有效地检查自己的事实的能力。然而,这种推理是有代价的:更高的计算和延迟。这就是为什么像Anthropic这样的实验室正在追求“混合”模型架构,将推理组件与标准、非推理元素相结合。混合模型可以快速回答简单的问题,同时花额外的时间考虑更具挑战性的问题。
Deep Cogito的所有模型,称为Cogito 1,都是混合模型。Cogito声称,它们的性能优于相同尺寸的最佳开放模型,包括Meta和中国AI初创公司DeepSeek的模型。
该公司在一篇博文中解释说:“每个模型都可以直接回答[…]或在回答前进行自我反思(如推理模型)。“[全部]是由一个小团队在大约75天内开发的。”
Cogito 1模型的参数范围从30亿到700亿个参数不等,Cogito表示,高达6710亿参数的模型将在未来几周和几个月内加入它们。参数大致对应于模型的解决问题的技能,参数越多越好。
说白了,Cogito 1不是从头开始开发的。Deep Cogito建立在Meta的开放Llama和阿里巴巴的Qwen模型之上,以创建自己的模型。该公司表示,它应用了新颖的训练方法来提高基础模型的性能,并实现可切换的推理。
根据Cogito的内部基准测试结果,最大的Cogito 1模型Cogito 70B在一些数学和语言评估中具有超越DeepSeek的R1推理模型。禁用推理的Cogito 70B也掩盖了Meta最近在LiveBench上发布的Llama 4 Scout模型,这是一个通用的人工智能测试。
每个Cogito 1模型都可以通过云提供商Fireworks AI和Together AI上的API下载或使用。
Cogito在其博客文章中写道:“目前,我们仍处于[我们的]缩放曲线的早期阶段,只使用了通常保留给传统大型语言模型后/继续训练的一小部分计算。”“展望未来,我们正在研究自我提升的补充培训后方法。”
根据向加利福尼亚州提交的文件,总部位于旧金山的Deep Cogito成立于2024年6月。该公司的领英页面列出了两位联合创始人Drishan Arora和Dhruv Malhotra。Malhotra之前是谷歌人工智能实验室DeepMind的产品经理,在那里他从事生成式搜索技术。Arora是谷歌的高级软件工程师。
据PitchBook报道,Deep Cogito的支持者包括South Park Commons,雄心勃勃地致力于建立“通用超级智能”。该公司的创始人将该短语理解为人工智能,其任务比大多数人更好,并且“发现我们尚未想象的全新能力”。
本文转载自Techcrunch,本文观点不代表雅典娜AI助手YadiannaAI立场。