论文地址
[1606.05328] Conditional Image Generation with PixelCNN Decoders
总结
以下是对文档《Conditional Image Generation with PixelCNN Decoders》的详细总结:
一、摘要
本文探索了基于PixelCNN架构的新图像密度模型在条件图像生成方面的潜力。通过引入门控PixelCNN(Gated PixelCNN),结合了PixelRNN和PixelCNN的优点,提高了对数似然性并减少了训练时间。同时,提出了条件PixelCNN(Conditional PixelCNN),可基于潜在向量嵌入对自然图像的复杂条件分布进行建模。此外,Conditional PixelCNN还可作为图像自动编码器中的强大解码器。
二、引言
图像建模在许多实际应用中需要基于先验信息进行条件生成,如强化学习规划、图像处理任务等。本文通过改进PixelRNN架构中的卷积变体PixelCNN,使其能够更好地处理条件信息。
三、Gated PixelCNN
- 基本原理: PixelCNNs通过自回归连接逐像素地建模图像,将图像的联合分布分解为条件分布的乘积,像素的依赖顺序为光栅扫描顺序。
- 门控卷积层: 通过使用门控激活单元替换原始PixelCNN中的整流线性单元,提高了模型性能,类似于高速公路网络、网格LSTM和神经GPU等模型中的门控机制。
- 盲点问题: 原始PixelCNN的有效感受野存在盲点,本文通过组合两个卷积网络堆栈(水平堆栈和垂直堆栈)来消除盲点,使感受野能够以矩形方式增长而无盲点。
- 条件PixelCNN: 通过在激活函数前添加依赖于潜在向量h的项,对图像的条件分布进行建模。可以使用一个热编码指定类,也可以开发位置相关的条件变体,通过将h映射到空间表示来获得位置相关的偏差。
- PixelCNN Auto - Encoders: 由于条件PixelCNNs能够建模多样的多模态图像分布,因此可以将其用作自动编码器中的图像解码器,这可能会改变编码器从数据中提取的表示。
四、实验
- 无条件建模: 在CIFAR - 10和ImageNet数据集上的实验表明,Gated PixelCNN的性能接近PixelRNN,且在ImageNet上超过了PixelRNN,同时训练时间减少了一半。
- 基于ImageNet类别的条件建模: 使用Gated PixelCNNs对ImageNet图像进行类条件建模,虽然对数似然结果没有显著改善,但生成样本的视觉质量有很大提高,模型能够生成不同类别的独特且真实的图像。
- 基于肖像嵌入的条件建模: 使用从Flickr图像中自动裁剪的大量肖像训练的卷积网络的顶层潜在表示,训练条件PixelCNN,模型能够基于单个人的图像生成具有相同面部特征的新肖像,并且通过对嵌入进行线性插值的实验,展示了模型能够生成平滑过渡的新图像。
- PixelCNN Auto Encoder: 将PixelCNN作为自动编码器的解码器进行端到端训练,与传统卷积自动编码器相比,PixelCNN自动编码器的瓶颈表示中编码的信息具有不同的性质,能够生成不同但相似的室内场景,而不是精确重构输入。
五、结论
Gated PixelCNN改进了原始PixelCNN,能够匹配或超越PixelRNN的性能,并且计算效率更高。通过条件PixelCNN,在不同的条件建模设置中展示了良好的性能,包括类条件生成、人物肖像生成和图像自动编码器中的应用。未来的研究方向包括从单个示例图像生成新图像、结合条件PixelCNN和变分推理创建变分自编码器以及基于图像标题而不是类标签进行建模。