StoryDiffusion 是由字节跳动和南开大学HVision团队共同开发的人工智能工具,专注于生成连贯的图像与视频故事,尤其擅长漫画创作。以下是关于StoryDiffusion的一些关键信息:
-
技术特点:
- StoryDiffusion 采用一致性自注意力(Consistent Self-Attention)技术,无需额外训练即可产出风格统一、角色连贯的图像序列。
- 它能够保持多个角色的身份,并在一系列图像中生成一致的角色。
- 通过生成的一致图像或用户输入的图像为条件,StoryDiffusion 能够生成高质量的视频。
-
主要功能:
- 一致性图像生成:根据文本描述生成内容一致的图像,适用于叙事和故事讲述。
- 长视频生成:将图像转换成具有平滑过渡和一致主体的视频。
- 文本驱动的内容控制:支持用户基于文本提示控制生成的图像和视频内容。
- 无需训练的模块集成:Consistent Self-Attention模块无需训练直接集成到现有的图像生成模型中。
- 滑动窗口支持长故事:滑动窗口机制支持长文本故事的图像生成,不受输入长度限制。
-
技术原理:
- 一致性自我注意力(Consistent Self-Attention):在自注意力计算中引入跨图像的token,增强不同图像间的一致性。
- 语义运动预测器(Semantic Motion Predictor):基于预训练的图像编码器将图像映射到语义空间,预测中间帧的运动条件。
- Transformer结构预测:在语义空间中用Transformer结构预测一系列中间帧。
- 视频扩散模型:将预测得到的语义空间向量作为控制信号,基于视频扩散模型解码成最终的视频帧。
-
应用场景:
- 动漫和漫画创作、教育和故事讲述、社交媒体内容制作、广告和营销、电影和游戏制作、虚拟主播和视频会议等。
-
项目资源:
StoryDiffusion 提供了一种创新的方法来生成一致的图像和视频,以讲述复杂的故事,推动了视觉故事生成领域的研究,并为内容创作提供了新的可能性。