AI写作工具 0
AI图像工具 0
- 常用AI图像工具
- AI图片插画生成
- AI图片背景移除
- AI图片物体抹除
- AI图片无损放大
- AI图片优化修复
- AI商品图生成
- AI 3D模型生成
AI视频工具 0
AI办公工具 0
- AI幻灯片和演示
- AI表格数据处理
- AI思维导图
- AI文档工具
- AI会议工具
- AI招聘求职
- AI法律助手
- AI语言翻译
- AI效率提升
AI智能体 0
AI聊天助手 0
AI编程工具 0
AI设计工具 0
AI音频工具 0
AI搜索引擎 0
AI开发平台 0
AI学习网站 0
AI训练模型 0
AI模型评测 0
AI内容检测 0
- 内容检测
- 降AI/AIGC率
AI提示指令 0

≡ AI工具

MultiTalk – 音频驱动的多人对话视频生成框架

分类：AI工具

MultiTalk是什么

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。框架推出 Label Rotary Position Embedding (L-RoPE) 方法，有效解决多声道音频与人物绑定的问题，借助部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk 在多个数据集上表现出色，展示了强大的视频生成能力，适用生成卡通、歌唱及遵循指令的视频等多种场景。