论文地址
[2107.00645] Global Filter Networks for Image Classification
总结
《Global Filter Networks for Image Classification》论文总结
作者为清华大学自动化系的Yongming Rao、Wenliang Zhao、Zheng Zhu、Jiwen Lu和Jie Zhou,提出了一种用于图像分类的新型神经网络架构——Global Filter Network(GFNet)。
研究背景和动机:
- 视觉Transformer和纯MLP模型在处理视觉任务时存在计算复杂度高的问题,尤其是当图像尺寸增加时,这限制了它们在下游密集预测任务中的应用。
- 局部自注意力虽然在实践中有效,但引入了许多手工选择(如窗口大小、填充策略等),并限制了每层的感受野。
核心贡献:
- 提出GFNet架构:一种简单而高效的架构,基于Vision Transformer进行了微小修改,用提出的全局滤波层替换了自注意力子层,该层包括三个关键操作:二维离散傅里叶变换、频域特征与可学习全局滤波器的逐元素乘法以及二维逆傅里叶变换。
- 实验验证有效性:在ImageNet和下游任务上展示了良好的准确性/复杂性权衡,证明GFNet在效率、泛化能力和鲁棒性方面可以成为Transformer风格模型和CNN的有力替代。
相关工作:
- Vision transformers:介绍了将transformers应用于图像分类的相关工作,以及一些改进transformers的方法,但大多数架构修改引入了与CNN类似的额外归纳偏差,本文专注于标准Transformer架构,旨在替换沉重的自注意力层为更高效的操作。
- MLP - like models:讨论了用MLP替换transformers中自注意力层的相关工作,但这些模型存在计算复杂度高和难以扩展到更高分辨率的问题,本文成功解决了这些问题,提出的GFNet具有对数线性复杂度且易于扩展到任何分辨率。
- Applications of Fourier transform in vision:介绍了傅里叶变换在数字图像处理和一些深度学习方法中的应用,本文受数字图像处理中频率滤波器的启发,利用傅里叶变换在频域中使用可学习滤波器全局交换令牌间的信息,并利用FFT的一些特性来降低计算成本和参数数量。
方法:
- 离散傅里叶变换(DFT):是GFNet的重要组成部分,对一维和二维DFT进行了介绍,包括其公式、性质(如输入输出的离散性、高效的算法等)以及与逆DFT的关系。对于实输入,其DFT具有共轭对称性,且FFT算法能将计算复杂度从O(N²)降低到O(N log N)。
- Global Filter Networks(GFNet):
- 总体架构:输入H×W非重叠补丁,将展平的补丁投影为L = HW个令牌(tokens),模型基本构建块包括全局滤波层(可高效交换空间信息)和前馈网络(FFN),最后输出令牌经过全局平均池化层和线性分类器。
- 全局滤波层:作为自注意力层的替代,用于混合表示不同空间位置的令牌。具体操作包括对令牌特征进行二维FFT转换到频域,与可学习滤波器K进行逐元素乘法调制频谱,再通过二维逆FFT转换回空间域更新令牌。全局滤波器K在频域中更高效,相当于深度全局循环卷积,且在实现中利用DFT的性质减少了冗余计算和参数。
- 与其他Transformer风格模型的关系:GFNet比视觉Transformer和MLP模型更高效,计算复杂度为O(L log L),且更灵活,易于扩展到更高分辨率,可通过插值调整全局滤波器以适应不同输入。
- 架构变体:研究了两种变体,一种是每个块中令牌数量固定的Transformer风格模型,另一种是受CNN成功启发的具有逐渐下采样令牌的CNN风格分层模型。
实验:
- ImageNet分类:在ImageNet上进行实验,与多种架构进行比较,包括视觉Transformer、MLP模型等,结果表明GFNet优于近期的MLP模型,与DeiT性能相似,在分层模型比较中也表现出色,且通过微调能适应更高分辨率并取得更好性能。
- 迁移学习:在CIFAR - 10/100、Stanford Cars和Flowers - 102等数据集上测试GFNet的泛化能力,结果表明GFNet在下游数据集上表现良好,性能与先进的EfficientNet - B7相当,且优于ResMLP模型,与先进的CNNs和视觉Transformer具有竞争力。
- 分析和可视化:通过比较GFNet与其他模型在理论FLOPs、实际延迟和峰值内存使用等方面的效率,展示了GFNet的优势;通过复杂性和准确性的权衡分析,表明GFNet在各种模型中达到了最佳平衡;对全局滤波器的消融研究表明GFNet优于其他基线方法;通过在ImageNet - A、ImageNet - C、FGSM和PGD等数据集上的实验,评估了GFNet的鲁棒性和泛化能力,发现GFNet在这两方面都具有良好的性能;对GFNet核心操作中频域特征与全局滤波器的逐元素乘法进行可视化,发现学习到的全局滤波器在频域中有更清晰的模式,且不同层有不同特点。
结论:
GFNet是一种用于图像分类的简单且高效的架构,通过在频域中使用二维FFT / IFFT和一组可学习的全局滤波器替换视觉Transformer中的自注意力子层,受益于对数线性复杂度的令牌混合操作,该架构高效。实验结果表明,GFNet在准确性/复杂性权衡方面可以成为视觉Transformer、类MLP模型和CNN的有力替代。