≡ AI工具

VoxCPM – 面壁智能联合清华推出的语音生成模型

分类：AI工具

VoxCPM是什么

VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开发的 0.5B 参数语音生成模型。在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。VoxCPM 采用端到端的扩散自回归架构，直接从文本生成连续语音表示，突破了传统离散分词的局限。通过分层语言建模和有限状态量化约束，实现了语义与声学的隐式解耦，显著提升了语音的表达力和生成稳定性。VoxCPM 支持零样本声音克隆，仅需一段参考音频，能精准复刻说话者的音色、口音、情感语调等特征，生成高度逼真的语音。推理效率极高，在 NVIDIA RTX 4090 GPU 上，实时因子（RTF）低至 0.17，可满足实时应用需求。VoxCPM 支持中英双语声音复刻，能合成公式、符号音频，实现自定义读音纠正。