≡ AI工具
Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型
Xiaomi-MiMo-Audio是什么
Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash,在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。
小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及1.2B参数量的 Tokenizer 模型,支持音频重建和音频转文本任务。