开源视觉语言模型 Kimi-VL 发布

Athena • 文章来源: 爱范儿 • 2025年4月12日下午10:10 • AI热点要闻 • 阅读 72

来源：爱范儿

4 月 11 日，月之暗面 Kimi 正式发布旗下开源视觉语言模型 Kimi-VL。该模型具体参数如下：
语言模型部分，采用了 Kimi 前一段时间发布的轻量级 MoE 模型 Moonlight，16B 总参数，2.8B 激活参数；
视觉信息处理部分，采用了支持原生分辨率的 MoonViT 编码器 —— 400M 参数 Vison Transformer 架构；
Kimi-VL 支持广泛的多模态信息输入，包括单图、多图、视频、包含视觉信息的长文档等，在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent 等基准测试中展现了有竞争力的水平，在多数测试中打败了 Qwen2.5-VL-7B、DeepSeek-VL2、GPT-4o 系列等模型。此外，Kimi 还带来了支持长思考的模型分支版本 —— Kimi-VL-Thinking：
该模型经过强化学习，激活了模型的长思维链推理能力（Long CoT）；
尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型，但在有较高推理难度的基准测试（包括 MMMU，MathVision，MathVista）中，部分成绩可以接近甚至超过超大尺寸的前沿模型。目前，Kimi-VL 技术报告、Github 代码、Hugging Face 模型下载均已上线。

本文转载自爱范儿，本文观点不代表雅典娜AI助手YadiannaAI立场。