“FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE”提出用有限标量量化(FSQ)替代VQ-VAE潜在表示中的矢量量化(VQ),在多种任务中取得有竞争力的性能,且避免了VQ的诸多问题。

  1. 研究背景:VQ在学习离散表示方面应用广泛,但存在优化困难和码本利用率低等问题。本文旨在简化VQ-VAE,去除辅助损失,提高码本利用率,并保持功能与VQ相似。

  2. 相关工作

    • VQ-VAE改进:多种方法改进VQ-VAE训练,如软期望最大化、随机重启、离线聚类重初始化、分层表示、添加高斯噪声、重新参数化等。
    • VQ替代方案:包括残差量化、乘积量化等,FSQ在音频任务有应用,但在视觉任务外未受关注。
    • 神经压缩:多数基于无界标量量化约束熵,FSQ用于高保真图像表示和极端压缩,但未在VQ-VAE相关视觉任务中应用。
  3. 方法

    • 有限标量量化(FSQ):对$d$维表示$z$,经$f$函数界定后取整量化,$f$使$\hat{z}=round(f(z))$各通道取$L$个值,形成大小为$L^{d}$的隐式码本,用直通估计器(STE)传播梯度。
    • 超参数:包括通道数$d$和每通道量化级数$L$,根据目标码本大小选择,推荐$L_{i}≥5$。
    • 参数数量:FSQ参数少于VQ,因无需学习VQ的码本,且FSQ中$d$通常更小。
  4. 实验

    • 模型回顾:MaskGIT先训练VQ-GAN自编码器,再训练掩码变换器预测量化表示;UViM先训练基于变换器的VQ-VAE建模标签空间,再训练编解码器变换器预测密集标签。
    • VQ和FSQ特性权衡:在128×128 ImageNet上训练MaskGIT模型,研究不同码本大小下的重建FID、采样FID、码本使用率和压缩成本等指标,发现FSQ在大码本时重建FID、采样FID和码本使用率更优,VQ在小码本时重建FID略好。
    • MaskGIT实验:在ImageNet 256上训练,FSQ和VQ指标和视觉效果相当,FSQ加入无分类器引导后性能提升。
    • UViM实验:在全景分割、深度估计和着色任务上,FSQ与VQ性能相当,在无辅助信息时FSQ性能下降更少,且FSQ无需码本分裂即可保持高码本使用率。
  5. 研究结论:FSQ可替代VQ-VAE中的VQ,在大码本下利用率更高,在图像生成和计算机视觉任务中取得可比性能,有望在更多应用中探索。