RQ-VAE(Residual-Quantized VAE)是一种结合了变分自编码器(VAE)和残差量化技术的方法,用于高分辨率图像的自回归(AR)建模。这种方法的核心在于使用残差量化(RQ)来精确逼近图像的特征图,并将图像表示为离散编码的堆叠图。与传统的向量量化(VQ)相比,RQ-VAE不需要增加码本大小,而是通过固定大小的码本递归量化特征图,从而在保持图像质量的同时降低空间分辨率。
RQ-VAE的主要贡献包括:
-
提出了RQ-VAE,它能够在不增加码本大小的情况下,精确逼近图像的特征图,并将图像表示为离散编码的堆叠图。
-
通过预测下一个编码堆栈,RQ-Transformer学习预测下一个位置的量化特征向量,有效降低了计算成本。
-
RQ-VAE可以在固定的码书大小下,将256×256的图像表示为8×8的特征图分辨率,从而减少计算成本并提高图像生成速度。
-
RQ-VAE和RQ-Transformer的框架在各种无条件和条件图像生成的基准上优于现有的AR模型,并且具有更快的采样速度来生成高质量图像。
RQ-VAE的训练涉及到重建损失和承诺损失,其中承诺损失是来自每个量化深度的量化误差的总和,目标是使量化特征图在增加深度时顺序减少原始特征图的量化误差。此外,RQ-VAE还通过对抗学习进行训练,以提高重建图像的感知质量。
总的来说,RQ-VAE是一种有效的高分辨率图像生成方法,它通过残差量化技术和自回归模型的结合,实现了在保持图像质量的同时降低计算成本和提高生成速度的目标。