论文地址
论文总结
以下是对这篇论文的详细总结:
一、论文题目
《Learning Structured Output Representations from Attributes using Deep Conditional Generative Models》
二、作者
Mohamed Debbagh
三、研究背景与动机
- 结构化输出表示是计算机视觉中探索的生成任务,通常需要将低维特征映射到高维结构化输出,但卷积神经网络(CNN)等确定性方法在处理此任务时会丢失复杂的空间信息,导致输出结构的不确定性和模糊性。
- 概率方法如变分自编码器(VAE)可以将这些表示描述为可能结果的分布,但VAE未考虑分布的多模态性,可能导致样本生成不受约束。
- Sohn等人提出的条件变分自编码器(CVAE)通过学习基于观测变量调节的潜在空间的条件先验分布,能够从多模态分布中采样,实现更可控和稳健的样本生成。
四、相关工作
- 条件生成模型(CGMs):包括VAE、GAN、Normalizing Flows和Denoising Score Matching/Diffusion Probabilistic Models等。CGMs通过在额外输入变量的条件下扩展DGMs,来控制结构化输出的生成,例如CVAE扩展了VAE框架,Conditional GANs扩展了GAN框架等。
- 解缠图像合成:旨在以可控方式生成捕捉数据表示变化的新图像,使各种属性可被重现同时保持图像其他方面不变。一些方法如β - VAE、InfoGANs和Fader Networks等专注于使用不同方法实现解缠图像合成。
五、条件变分自编码器(CVAE)
- 自动编码变分贝叶斯框架:VAE使用变分推断来近似潜在变量和参数难以处理的有向图模型的后验分布,并结合自动编码器框架学习潜在空间的先验分布,通过编码器建模替代分布,解码器从先验分布采样的潜在代码生成样本输出。CVAE则在VAE框架基础上结合条件有向图模型,学习基于输入变量x的潜在空间的先验分布,使输出受到输入变量的调节。
- 变分下界:在变分推断中,通过最小化近似后验分布和真实后验分布之间的KL散度来优化模型,变分下界是边际对数似然的下界,优化问题旨在最大化变分下界,即证据下界(ELBO)。CVAE的ELBO考虑了输入观测变量x和数据y的重建,通过最大化ELBO来优化CVAE模型。
- 重参数化技巧:为了解决采样步骤中的不可微性问题,VAE和CVAE使用重参数化技巧,引入辅助噪声变量ϵ,将潜在变量表示为确定性变换,使梯度能够通过确定性部分流动,从而实现有效的梯度估计和稳定的训练过程。
六、方法
- 模型架构:采用标准的CNN - CVAE架构,包括编码器、解码器和重参数化步骤。编码器是一个卷积神经网络,将训练图像y和条件变量x作为输入,x是从与训练图像对应的字符串类型属性列表中获得的独热编码张量。编码器通过卷积层和全连接层获得潜在空间的均值μ和对数方差logσ²。重参数化步骤根据均值和对数方差生成潜在代码z。解码器是一个卷积神经网络,以潜在变量z和条件变量x作为输入,通过反卷积层和激活函数生成输出图像ŷ。模型使用Kaiming正常初始化权重,偏差初始化为零。网络架构较浅,以提高计算效率和避免过拟合。
- 损失函数:CVAE的优化围绕最大化公式5中的变分下界进行,损失函数由重建损失和KL散度损失组成,重建损失使用均方误差(MSE)计算,KL散度损失根据编码器产生的均值μ和对数方差logσ²计算,引入加权项β来控制对重建损失和正则化项的重视程度。模型使用Adam优化器进行训练。
七、实验
- 数据集:使用Large - scale CelebFaces Attributes(CelebA)数据集和Caltech - UCSD Birds(CUB - 200 - 2011)数据集进行实验。
- 实验设置:在不同的β值(0.25、0.5、0.75、0.9)下训练CVAE模型,评估重建误差、泛化能力和解缠能力等指标,实验硬件包括NVIDIA GeForce RTX 2080 Ti GPU、AMD Ryzen 7 2700X Eight - Core Processor和64GB RAM,使用Ubuntu 22.04.2 LTS操作系统,软件包括PyTorch 2.0、NumPy和Matplotlib。
-
实验结果:
- CelebA数据集上,模型能够生成具有所需属性的人脸结构,但面部结构在中心区域更清晰,远离中心的属性如发型、服装和背景变化较大且模糊。通过随机选择、添加和删除属性进行测试,模型能够生成较好的样本。
- CUB - 200 - 2011数据集上,模型无法生成高度详细的鸟类结构化图像,但能够重现鸟类的一般属性,随着正则化增加,图像结构更明显但仍较模糊,可能是由于图像结构的可变性和具有特定属性的训练图像的稀疏性。
- 重建与正则化方面,低β值导致样本生成时出现高频模糊和伪影,虽然能准确重建训练图像,但目标是合成具有多种属性的广义人脸,因此增加β值有利于生成更自然的人脸和结构更合理的鸟类图像。
八、结论
- CVAE是一种强大的生成模型,能够从低维属性构建高维结构化输出,可生成具有相同属性的多种变化的解缠样本图像,在图像合成中有潜在应用。
- 在图像合成任务中,训练时损失函数的正则化项权重更高更有利,因为目标不是学习准确的重建,而是有效地捕捉潜在空间的变化。
- 捕捉稀疏图像数据中的高频可变性仍然存在挑战,CVAE模型在控制方式下生成有意义表示的能力仍有待提高。
- 数据预处理和增强技术的改进可以显著提高结果,CVAEs作为完全监督的方法,高度依赖训练数据的质量,未来应进一步研究以提高深度条件生成模型的利用率。