目录

论文地址

相关资料

研究背景

  • 任务定义:人类视频生成旨在使用生成模型根据文本、音频和姿势等控制条件合成自然真实的2D人体视频序列。

  • 应用领域:在电影、游戏、AR/VR、人机交互、数字人类和无障碍人机交互等领域有广泛应用。

  • 挑战问题:人类外观的时间序列一致性、人体变形、人体运动复杂性、与环境的关系以及对上下文条件的依赖等。

与先前调查的比较

  • 范围不同:专注于人类视频生成,详细阐述了其独特挑战和发展,与一般视频生成任务和仅关注头部生成的任务不同,还关注了手的生成,扩展到了半身和全身。

  • 视频视角:从视频角度特别讨论了人类生成的挑战,而之前的调查主要关注图像生成的问题。

  • 新的见解:通过详细的方法和挑战讨论,以及对相关数据集、评估指标和商业项目的总结,为读者提供了对成功生成人类视频的因素的清晰见解,并回答了“什么造就了良好的人类视频生成”的问题。

数据集和指标

  • 指标:评估生成人类视频的指标包括图像质量、视频质量、一致性、多样性、美学和动作准确性等方面,常用的指标有LI Error、PSNR、SSIM、LPIPS、FID、KVD、FVD、ACD、WE、FGD、FTD、FID - VID、BC、CLIP - I score、BAS、FC、IS、Div、Dover Score、PCK、AKD和MKR等。

  • 数据集:包括ASTS、UCF - 101、human3.6m、NTU RGB + D、TaiChi、HAR、3D People Synthetic、MSP - Avatar、EverybodyDance、AIST ++、TikTok、Dancelt、TikTok - v4、Disco、Sub - URMP、URMP、DeepFashion、Fashion、Fashion - Text2Video、HumanArt、MS - ASL、PHOENIX14T、How2sign、Bold、MCCS - 2023、Speech2gesture、Pats、TED gesture和Ted - talk等。

  • 姿态标注:常见的姿态标注格式包括2D Pose、3D Pose、3D Mesh、Optical Flow、Depth和Dense Pose等,常用的方法有OpenPose、DwPose、PoseNet、HRNet、ExPose、Alphapose、MotionBERT、SMPL、SMPLX、MMFlow、FlowNet、RAFT、vid2depth、monodepth2、Depth Anything和DensePose等。

基于不同条件信号的人类运动生成方法

文本到人类视频生成

  • 文本驱动的人类外观控制:通过直接提供参考图像或使用输入文本描述来控制生成的人类外观,以确保生成视频中的人物外观与文本描述一致并保留身份细节。

  • 文本驱动的人类运动控制:一种方法是遵循两阶段管道,先根据文本语义生成相应姿势,然后用这些姿势指导运动;另一种方法是直接使用文本作为提示来指导视频动作的生成。

音频到人类视频生成

  • 语音驱动的人类视频生成:关注包括身体手势的作品,一些方法从2D骨架或3D模型序列合成说话视频,存在手工标注误差和运动表示粗糙等问题,一些方法使用无监督特征或扩散模型来解决这些问题。

  • 音乐驱动的人类视频生成:包括音乐 - 舞蹈和音乐 - 表演两个子任务,一些方法通过明确检测音乐节拍、设计匹配阶段或多阶段框架来生成与音乐节拍同步的人类运动。

姿势到人类视频生成

  • 单条件姿势引导方法:早期基于GAN的方法主要使用CGAN、pix2pix和pix2pixHD等条件对抗网络,提取骨架姿势或密集姿势作为条件信号输入到生成模型中;当前方法大多利用稳定扩散(SD)或稳定视频扩散(SVD)作为视频生成模型的骨干,通过ControlNet等方法将姿势特征注入扩散模型。

  • 多条件姿势引导方法:为解决单条件姿势引导方法在复杂背景下的泛化能力差和遮挡问题,一些方法提出了创新的模型架构,如DISCO通过解缠背景和骨架姿势来提高舞蹈生成的组合性,Follow - Your - Pose v2通过光学流引导和参考姿势引导来增强背景稳定性和处理遮挡,VividPose通过引入深度和网格信息来更好地处理遮挡和复杂运动。

挑战

  • 遮挡问题:模型难以处理身体部分重叠或多人遮挡的情况。

  • 身体变形:生成的视频中身体形状、面部和手部等特征难以符合典型人类特征。

  • 外观不一致:人类外观的各种特征在生成视频中难以实现完全一致的一致性。

  • 背景影响:背景与前景人体的一致性和和谐性对人类生成质量有重大影响。

  • 时间不对齐:在音频到人类视频生成模型中,唇语和声音的同步是提高质量的重大挑战。

  • 不自然的姿势:生成的人类视频中姿势与输入引导姿势不一致,动作自然性不足。

  • 其他问题:文本或音频驱动模型中,由于数据集中的一对多映射性质,直接匹配输入与单个“正确”手势会导致不可靠和有偏差的关联,此外,扩散模型的效率挑战、多视图生成和高分辨率生成的挑战也对生成质量有重大影响。

结论和讨论

结论

总结了人类视频生成的现有研究,包括数据集资源和评估指标,并根据条件信号对现有研究进行分类和详细讨论。

讨论

  • 生成范式:与姿势驱动方法相比,文本和音频驱动方法可分为一阶段和两阶段方法,前者直接使用输入文本或音频引导生成,后者先生成姿势再用姿势引导生成,两阶段方法通过引入各种姿势类型,提供了额外的几何和语义信息,增强了视频运动的准确性和真实性,但效率较低。

  • 骨干:扩散模型如SD和SVD在人类视频生成中广泛应用,但与GAN相比,训练和推理时间成本较高。

  • 条件姿势:不同类型的条件姿势提供互补信息,骨架姿势准确描述人体空间信息和相对位置,但捕捉离散姿势变化,缺乏连续运动细节和背景建模;光学流包含时间信息,捕捉连续帧之间的变化;深度图捕获人体与背景的距离信息和表面细节;3D网格提供物体表面的详细几何结构。

未来工作

  • 大规模高质量人类视频数据集:现有公共数据集规模相对较小,收集大规模高质量数据集对开发人类视频生成的基础模型至关重要。

  • 长视频生成:当前方法通常生成的视频持续时间较短,生成长时间的人类视频是未来的挑战。

  • 逼真视频生成:解决遮挡、身体变形、姿势不自然和外观不一致等问题,确保生成的人体运动符合现实物理规律,创造具有高度逼真视觉效果的视频仍然是一项艰巨任务。

  • 人类视频扩散效率:探索视频扩散模型的效率是未来研究的有价值方向,以降低训练成本和缩小模型规模。

  • 细粒度可控性:现有多模态驱动的人类视频生成方法在特定身体部位(特别是手和脸)的细粒度控制方面仍然缺乏,未来研究应关注这些区域的可控生成。

  • 交互性:未来工作可以进一步研究交互可控性,使用户能够通过简单操作生成满足用户满意度的人类视频。