[2302.05543] Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet是一种神经网络架构,旨在将空间条件控制添加到大型预训练的文本到图像扩散模型中。以下是关于ControlNet的一些关键信息:

  1. 目的与应用:ControlNet允许在AI绘图中实现更精细化的可控生成。它通过在Stable Diffusion等大型扩散模型的基础上加入额外的控制方式,使得AI绘图在大规模商用上成为可能。

  2. 架构特点:ControlNet锁定了生产就绪的大型扩散模型,并重用了由数十亿图像预先训练的深层和鲁棒编码层作为强大的主干,以学习多样化的条件控制集。

  3. 零卷积连接:ControlNet的神经架构通过“零卷积”(零初始化的卷积层)连接,这使得参数能够从零逐渐增长,并确保不会有有害噪声影响微调过程。

  4. 条件控制测试:ControlNet在Stable Diffusion上测试了各种条件控制,如边缘、深度、分割、人体姿态等,可以处理单个或多个条件,并且可以带有或不带有文本提示。

  5. 训练鲁棒性:ControlNet的训练过程对于小型(<50k)和大型(>1m)数据集都具有很强的鲁棒性。

  6. 实验结果:大量的实验结果表明,ControlNet有助于更广泛地控制图像扩散模型。

  7. 额外图像控制:ControlNet通过让用户提供额外的图像来直接指定所需图像的组成,实现更精细的空间控制。这些额外的图像可以是边缘图、人体姿态骨架、分割图、深度、法线等,它们作为对图像生成过程的条件约束。

  8. 研究论文:ControlNet的研究论文《Adding Conditional Control to Text-to-Image Diffusion Models》提供了更深入的技术细节和实验结果,论文链接为:论文链接

ControlNet通过引入额外的图像作为控制条件,为图像生成模型提供了更精确的控制能力,这在图像生成领域是一个重要的进步。