≡ AI工具

MiMo-VL – 小米开源的多模态大模型

分类:AI工具
MiMo-VL – 小米开源的多模态大模型

MiMo-VL是什么

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。采用多阶段预训练策略,使用2.4T tokens的多模态数据,通过混合在线强化学习提升性能。在基础视觉理解、复杂推理、GUI交互等任务上表现出色,如在MMMU-val上达66.7%,超越Gemma 3 27B;在OlympiadBench上达59.4%,超越72B模型。

MiMo-VL