≡ AI工具
CosyVoice 2.0 – 阿里开源的语音生成大模型
CosyVoice 2.0是什么
CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升,MOS评测分从5.4提升到5.53,支持流式推理,大幅降低首包合成延迟至150ms,适合实时语音合成场景。
CosyVoice 3已全面升级赋予声音更多情绪和表现力,集语音克隆与语音合成为一体,只需用户提供一段3秒钟的声音样本,能精准捕捉用户的音色、语调和说话习惯,支持用用户的声音去朗读任何文本。CosyVoice 3支持中文、英文、日文等9种语言,能根据文本或指令生成带有特定情感的语音,如“开心”、“悲伤”、“愤怒”等,让语音更加生动和富有表现力。CosyVoice 3能保留用户声音里的口音,让口音成为用户数字身份的一部分。模型现已上线阿里云百炼。