“Perceiver - General Perception with Iterative Attention”介绍了一种基于Transformer的Perceiver模型,它能处理不同模态的大量输入,在多种模态分类任务中表现出色。

1. 研究背景

传统深度学习感知模型通常针对特定模态设计,存在架构局限性。例如ConvNets在处理多模态数据时不够灵活,Transformer虽灵活但在处理大规模输入时计算成本高。

2. Perceiver模型

  • 架构
    • 由交叉注意力模块和Transformer塔组成。交叉注意力模块将字节数组和潜在数组映射到潜在数组,Transformer塔将潜在数组映射到潜在数组,两者交替应用。
    • 通过引入不对称的交叉注意力操作解决了注意力的二次复杂度问题,将复杂度从$O(M^{2})$降为$O(MN)$,同时利用潜在Transformer解耦网络深度和输入大小,使模型能构建得很深。
    • 可以有多个交叉注意力层进行迭代,还能共享权重以提高参数效率。
  • 位置编码
    • 使用傅里叶特征位置编码,可直接表示输入数据的位置结构,控制编码频率带数量,对不同模态数据可使用不同维度的编码。
    • 位置编码可让模型学习利用位置结构,也能轻松适应新领域,还可自然扩展到多模态数据。

3. 实验结果

  • ImageNet图像分类
    • 与ResNet - 50和ViT等模型相比,Perceiver在ImageNet上取得了有竞争力的结果。
    • 在Permuted ImageNet上,Transformer和Perceiver的结果不受影响,而ViT和ResNet性能大幅下降。
  • AudioSet音频和视频分类
    • 在音频事件分类任务中,使用原始音频或梅尔频谱图作为输入,Perceiver在仅音频和视频 + 音频的实验中都取得了接近最先进的结果。
    • 音频 + 视频融合比单一模态有显著提升,但仍低于使用单独模型进行后期融合的最先进方法。
  • ModelNet40点云分类
    • 与PointNet++、ResNet - 50和ViT等模型相比,Perceiver在ModelNet40数据集上取得了较好的结果。

4. 研究结论

  • Perceiver模型是一种通用的感知架构,对输入假设少,能处理任意传感器配置并融合各级信息。
  • 模型在减少模态特定先验知识的同时,仍采用了模态特定的增强和位置编码,端到端的模态无关学习仍是研究方向。