≡ AI工具

Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

分类：AI工具

Xiaomi-MiMo-Audio是什么

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型，取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash，在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。

小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct，以及1.2B参数量的 Tokenizer 模型，支持音频重建和音频转文本任务。