据小米官方消息,小米方面介绍,7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下:
在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。
在相同 RL 训练数据情况下,MiMo-7B 的数学&代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。据介绍,MiMo 的推理能力提升,源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新:
预训练阶段创新:旨在让模型接触更多推理模式。着重挖掘富推理语料,并合成约 200B tokens 推理数据;进行了三阶段训练,逐步提升训练难度,总训练 25T tokens。
后训练阶段创新:旨在建立高效稳定的强化学习系统。提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练;设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍。目前,MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本,技术报告也同步上线 GitHub,向开发者与研究者全面开放。另据悉,MiMo 系列由新组建的「小米大模型 Core 团队」打造,意在探索预训练增长瓶颈之外的能力突破路径,激发模型的推理潜能。
HuggingFace:https://huggingface.co/XiaomiMiMoGitHub
技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf