论文地址:https://arxiv.org/pdf/2105.01601

模型结构图

MLP - Mixer

总结

《MLP - Mixer: An all - MLP Architecture for Vision》总结

作者为Ilya Tolstikhin等,来自Google Research。

研究背景

计算机视觉中,卷积神经网络(CNNs)一直是主流模型,近期基于自注意力层的Vision Transformers(ViT)也取得了优异性能。本文提出了一种全新的基于多层感知机(MLPs)的架构MLP - Mixer。

主要内容

  • Mixer架构

    • 总体结构:输入为线性投影后的图像块序列(“patches × channels”表),通过两种类型的MLP层进行特征混合,包括通道混合MLPs和令牌混合MLPs,同时使用了一些标准的架构组件,如跳过连接、层归一化等,最后通过全局平均池化层和线性分类器进行分类。
    • 具体实现:每个MLP块包含两个全连接层和一个非线性函数,令牌混合MLP对X的列进行操作(应用于转置后的输入表X⊤),通道混合MLP对X的行进行操作。参数绑定防止架构在增加隐藏维度C或序列长度S时增长过快,节省了内存,但对实证性能没有影响。
  • 实验

    • 实验设置:在一系列下游分类任务中评估MLP - Mixer模型的性能,包括使用不同的下游任务、预训练数据集、超参数等,并与最先进的CNNs和基于注意力的模型进行比较。
    • 主要结果

      • 与其他模型对比:在大规模数据集上预训练时,MLP - Mixer能达到接近最先进的性能,在准确性和计算成本的权衡上具有竞争力;在较小规模数据集上预训练并结合现代正则化技术时,也能取得较好性能,但略逊于专门的CNNs架构。
      • 模型规模的影响:随着模型规模的增加,Mixer的性能逐渐提高,在高端模型规模上,Mixer能够与其他模型竞争。
      • 预训练数据集大小的影响:预训练数据集越大,Mixer的性能提升越显著,且相比ResNets和ViT,Mixer从数据增长中受益更多。
      • 对输入排列的不变性:Mixer对图像块和像素的排列顺序具有不变性,而ResNet的性能会因像素顺序的打乱而显著下降。
      • 可视化:Mixer的令牌混合MLPs允许不同空间位置之间的全局信息交换,其学习到的一些特征在整个图像上操作,而另一些在较小区域上操作,深层似乎没有明显可识别的结构,与CNNs类似,存在许多具有相反相位的特征检测器对。
  • 相关工作

    • MLP - Mixer的设计思想可以追溯到CNNs和Transformers的相关文献,它将卷积核大小减小到1×1,将卷积转化为标准的密集矩阵乘法(通道混合MLPs),并应用密集矩阵乘法来聚合空间信息(令牌混合MLPs);同时借鉴了近期基于Transformer架构的一些设计选择。
    • 许多近期工作致力于设计更有效的视觉架构,Mixer可以看作是在不依赖局部性偏差和注意力机制的方向上迈出的一步。
    • 现代最先进的模型通常使用在更大数据集上预训练的权重,或更新的数据增强和训练策略。

结论

MLP - Mixer是一种简单且有效的视觉架构,在准确性和计算资源的权衡方面与现有最先进的方法相当,希望能引发更多关于该架构的研究,包括研究模型学习到的特征以及理解其归纳偏差在泛化中的作用等。