开源视觉语言模型 Kimi-VL 发布

来源:爱范儿

开源视觉语言模型 Kimi-VL 发布

4 月 11 日,月之暗面 Kimi 正式发布旗下开源视觉语言模型 Kimi-VL。该模型具体参数如下:
语言模型部分,采用了 Kimi 前一段时间发布的轻量级 MoE 模型 Moonlight,16B 总参数,2.8B 激活参数;
视觉信息处理部分,采用了支持原生分辨率的 MoonViT 编码器 —— 400M 参数 Vison Transformer 架构;
Kimi-VL 支持广泛的多模态信息输入,包括单图、多图、视频、包含视觉信息的长文档等,在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent 等基准测试中展现了有竞争力的水平,在多数测试中打败了 Qwen2.5-VL-7B、DeepSeek-VL2、GPT-4o 系列等模型。此外,Kimi 还带来了支持长思考的模型分支版本 —— Kimi-VL-Thinking:
该模型经过强化学习,激活了模型的长思维链推理能力(Long CoT);
尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型,但在有较高推理难度的基准测试(包括 MMMU,MathVision,MathVista)中,部分成绩可以接近甚至超过超大尺寸的前沿模型。目前,Kimi-VL  技术报告、Github 代码、Hugging Face 模型下载均已上线。

本文转载自爱范儿,本文观点不代表雅典娜AI助手YadiannaAI立场。

(0)
Athena的头像Athena
上一篇 2025年4月12日 下午9:59
下一篇 2025年4月12日 下午10:24

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

客服邮箱: kefu@yadiannaai.com

投稿邮箱:tougao@yadiannaai.com

合作邮箱:hezuo@yadiannaai.com

关注微信