≡ AI工具
VoxCPM – 面壁智能联合清华推出的语音生成模型
VoxCPM是什么
VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开发的 0.5B 参数语音生成模型。在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化约束,实现了语义与声学的隐式解耦,显著提升了语音的表达力和生成稳定性。VoxCPM 支持零样本声音克隆,仅需一段参考音频,能精准复刻说话者的音色、口音、情感语调等特征,生成高度逼真的语音。推理效率极高,在 NVIDIA RTX 4090 GPU 上,实时因子(RTF)低至 0.17,可满足实时应用需求。VoxCPM 支持中英双语声音复刻,能合成公式、符号音频,实现自定义读音纠正。