InfinityHuman是什么
InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。