谷歌MLP - Mixer: An all - MLP Architecture for Vision

论文地址：[2105.01601] MLP-Mixer: An all-MLP Architecture for Vision

模型结构图

MLP - Mixer

总结

《MLP - Mixer: An all - MLP Architecture for Vision》总结

作者为Ilya Tolstikhin等，来自Google Research。

研究背景

计算机视觉中，卷积神经网络（CNNs）一直是主流模型，近期基于自注意力层的Vision Transformers（ViT）也取得了优异性能。本文提出了一种全新的基于多层感知机（MLPs）的架构MLP - Mixer。

主要内容

Mixer架构：
- 总体结构：输入为线性投影后的图像块序列（“patches × channels”表），通过两种类型的MLP层进行特征混合，包括通道混合MLPs和令牌混合MLPs，同时使用了一些标准的架构组件，如跳过连接、层归一化等，最后通过全局平均池化层和线性分类器进行分类。
- 具体实现：每个MLP块包含两个全连接层和一个非线性函数，令牌混合MLP对X的列进行操作（应用于转置后的输入表X⊤），通道混合MLP对X的行进行操作。参数绑定防止架构在增加隐藏维度C或序列长度S时增长过快，节省了内存，但对实证性能没有影响。
实验：
- 实验设置：在一系列下游分类任务中评估MLP - Mixer模型的性能，包括使用不同的下游任务、预训练数据集、超参数等，并与最先进的CNNs和基于注意力的模型进行比较。
- 主要结果：
  - 与其他模型对比：在大规模数据集上预训练时，MLP - Mixer能达到接近最先进的性能，在准确性和计算成本的权衡上具有竞争力；在较小规模数据集上预训练并结合现代正则化技术时，也能取得较好性能，但略逊于专门的CNNs架构。
  - 模型规模的影响：随着模型规模的增加，Mixer的性能逐渐提高，在高端模型规模上，Mixer能够与其他模型竞争。
  - 预训练数据集大小的影响：预训练数据集越大，Mixer的性能提升越显著，且相比ResNets和ViT，Mixer从数据增长中受益更多。
  - 对输入排列的不变性：Mixer对图像块和像素的排列顺序具有不变性，而ResNet的性能会因像素顺序的打乱而显著下降。
  - 可视化：Mixer的令牌混合MLPs允许不同空间位置之间的全局信息交换，其学习到的一些特征在整个图像上操作，而另一些在较小区域上操作，深层似乎没有明显可识别的结构，与CNNs类似，存在许多具有相反相位的特征检测器对。
相关工作：
- MLP - Mixer的设计思想可以追溯到CNNs和Transformers的相关文献，它将卷积核大小减小到1×1，将卷积转化为标准的密集矩阵乘法（通道混合MLPs），并应用密集矩阵乘法来聚合空间信息（令牌混合MLPs）；同时借鉴了近期基于Transformer架构的一些设计选择。
- 许多近期工作致力于设计更有效的视觉架构，Mixer可以看作是在不依赖局部性偏差和注意力机制的方向上迈出的一步。
- 现代最先进的模型通常使用在更大数据集上预训练的权重，或更新的数据增强和训练策略。

结论

MLP - Mixer是一种简单且有效的视觉架构，在准确性和计算资源的权衡方面与现有最先进的方法相当，希望能引发更多关于该架构的研究，包括研究模型学习到的特征以及理解其归纳偏差在泛化中的作用等。

谷歌MLP - Mixer: An all - MLP Architecture for Vision

模型结构图

总结

论文相关文章

谷歌相关文章

最近热门

最常浏览