论文：Perceiver - General Perception with Iterative Attention

标签: 论文 , Transformer , Google , Deepmind 更新于: 2025/04/15 阅读:201 原文发表于：2024-11-01

“Perceiver - General Perception with Iterative Attention”介绍了一种基于Transformer的Perceiver模型，它能处理不同模态的大量输入，在多种模态分类任务中表现出色。

传统深度学习感知模型通常针对特定模态设计，存在架构局限性。例如ConvNets在处理多模态数据时不够灵活，Transformer虽灵活但在处理大规模输入时计算成本高。

架构
- 由交叉注意力模块和Transformer塔组成。交叉注意力模块将字节数组和潜在数组映射到潜在数组，Transformer塔将潜在数组映射到潜在数组，两者交替应用。
- 通过引入不对称的交叉注意力操作解决了注意力的二次复杂度问题，将复杂度从$O(M^{2})$降为$O(MN)$，同时利用潜在Transformer解耦网络深度和输入大小，使模型能构建得很深。
- 可以有多个交叉注意力层进行迭代，还能共享权重以提高参数效率。
位置编码
- 使用傅里叶特征位置编码，可直接表示输入数据的位置结构，控制编码频率带数量，对不同模态数据可使用不同维度的编码。
- 位置编码可让模型学习利用位置结构，也能轻松适应新领域，还可自然扩展到多模态数据。

ImageNet图像分类
- 与ResNet - 50和ViT等模型相比，Perceiver在ImageNet上取得了有竞争力的结果。
- 在Permuted ImageNet上，Transformer和Perceiver的结果不受影响，而ViT和ResNet性能大幅下降。
AudioSet音频和视频分类
- 在音频事件分类任务中，使用原始音频或梅尔频谱图作为输入，Perceiver在仅音频和视频 + 音频的实验中都取得了接近最先进的结果。
- 音频 + 视频融合比单一模态有显著提升，但仍低于使用单独模型进行后期融合的最先进方法。
ModelNet40点云分类
- 与PointNet++、ResNet - 50和ViT等模型相比，Perceiver在ModelNet40数据集上取得了较好的结果。