阿里发布国内首个“混合推理模型”Qwen3 并开源：支持两种思考模式，预训练约 36 万亿个 token、119 种语言和方言

据IT之家4月29日消息，今日凌晨，阿里巴巴发布了新一代通义千问 Qwen3 模型，一举登顶全球最强开源模型。
这是国内首个“混合推理模型”，将“快思考”与“慢思考”集成进同一个模型，大大节省算力消耗。
经过后训练的模型，例如 Qwen3-30B-A3B，以及它们的预训练基座模型（如 Qwen3-30B-A3B-Base）已在各大平台上开放使用。同时，阿里云开源了两个 MoE 模型的权重：
Qwen3-235B-A22B，一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型
Qwen3-30B-A3B，一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。
此外，六个 Dense 模型也已开源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 许可下开源。
据阿里云介绍，其旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。
外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。
核心亮点

多种思考模式
Qwen3 模型支持两种思考模式：
思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。
这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。
至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3 展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

阿里发布国内首个“混合推理模型”Qwen3 并开源：支持两种思考模式，预训练约 36 万亿个 token、119 种语言和方言

发表回复

联系我们