≡ AI工具

WorldDreamer – 视频生成通用世界模型,可以生成超过1分钟的视频

分类:AI工具
WorldDreamer – 视频生成通用世界模型,可以生成超过1分钟的视频

WorldDreamer是什么

WorldDreamer是基于Transformer的通用世界模型,致力于理解和预测物理世界的变化和运动规律,增强视频生成的能力。能完成自然场景和自动驾驶场景中的多种视频生成任务,如文本生成视频、图像生成视频、视频编辑和动作序列生成视频等。WorldDreamer通过将视觉输入映射到离散的标记并预测被遮蔽的标记来实现这一目标,结合了多模态提示以促进世界模型内的交互。实验表明,WorldDreamer在不同场景下生成视频方面表现出色,包括自然场景和驾驶环境,展现了其在执行文本到视频转换、图像到视频合成和视频编辑等任务方面的多功能性。