≡ AI工具

CosyVoice 2.0 – 阿里开源的语音生成大模型

分类：AI工具

CosyVoice 2.0是什么

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版，模型用有限标量量化技术提高码本利用率，简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53，支持流式推理，大幅降低首包合成延迟至150ms，适合实时语音合成场景。

CosyVoice 3已全面升级赋予声音更多情绪和表现力，集语音克隆与语音合成为一体，只需用户提供一段3秒钟的声音样本，能精准捕捉用户的音色、语调和说话习惯，支持用用户的声音去朗读任何文本。CosyVoice 3支持中文、英文、日文等9种语言，能根据文本或指令生成带有特定情感的语音，如“开心”、“悲伤”、“愤怒”等，让语音更加生动和富有表现力。CosyVoice 3能保留用户声音里的口音，让口音成为用户数字身份的一部分。模型现已上线阿里云百炼。