《PatchFormer: An Efficient Point Transformer with Patch Attention》总结

  1. 研究背景与问题提出

    • Transformer在点云学习中的应用与局限:Transformer在自然语言处理和2D视觉领域表现出色,其自注意力机制(SA)能捕捉长距离依赖关系,因此被引入点云学习。然而,现有基于点云的Transformer计算成本高,因为SA模块生成的注意力图计算复杂度高,且在空间和时间上与输入点云大小呈二次关系,同时在处理不规则数据结构时效率低,且难以构建多尺度特征关系。
  2. PatchFormer架构概述

    • 整体架构:PatchFormer主要由多尺度注意力(MST)模块和补丁注意力(PAT)模块组成,模型分为三个阶段,每个阶段包含MST和PAT模块。输入点云先通过共享多层感知机(MLP)嵌入到D维空间,然后依次经过各阶段模块处理,最后通过特定任务头(如分类头)完成任务。

    • MST模块

      • 多尺度特征聚合:将点云体素化后,使用不同尺度的深度可分离卷积(DWConv)核采样并拼接,为各阶段生成多尺度特征。例如在第一阶段使用三种不同大小的DWConv核(如3×3×3、5×5×5、7×7×7)采样,然后将对应中心但不同尺度的三个盒子投影拼接成一个嵌入。在其他阶段使用不同数量和大小的核,且大步长设置为1×1×1,对于大于5×5×5的核通过堆叠较小核实现,同时根据核大小分配不同维度以降低计算成本。
      • 注意力构建:将自注意力计算限制在非重叠局部3D窗口内,并引入3D相对位置偏差来构建不同尺度特征间的注意力,从而在计算效率和模型性能间取得平衡,且无需堆叠过多注意力层来扩大感受野。
    • PAT模块

      • 基估计:通过将点云分割成M个小块(M << N),用K-Means算法默认将分类任务中的点云分割为96块,基于此创建紧凑的基集B,每个基由小块内点的特征聚合而成,通过数据驱动方式自适应调整点对基的贡献,以拟合内在几何子流形。
      • 数据重估计:用估计的基B替换SA中的K矩阵重新计算注意力图A,然后用A和B重新估计输入F,计算估计特征与输入特征的差异并通过MLP层和残差连接传递信息,PAT降低了计算复杂度(从O(N²)到O(MN))且输出具有低秩特性。
  3. 实验结果与分析

    • 形状分类任务:在ModelNet40数据集上进行实验,PatchFormer整体准确率达93.5%,优于诸多模型,如DGCNN、KPConv和PointASNL等,与现有Transformer模型相比,速度提升9.2倍且准确率相当。计算资源需求方面,PatchFormer参数仅2.45M,FLOPs为1.62G,且在处理不规则数据上仅花费6.3%的总运行时间,适合边缘设备部署。

    • 对象分割任务:在ShapeNet Parts数据集实验,PatchFormer在相似准确率下比PT2快12.4倍、比PCT快2.2倍,比PointASNL快22.7倍且准确率更高,同时可视化展示了PAT模块中基与注意力图在对象分割中的作用。

    • 室内场景语义分割任务:在S3DIS数据集上,PatchFormer达到68.1%的mIoU,超过DGCNN、MinkowskiNet、KPConv、PointASNL和PT1等模型,且在延迟方面优势明显,可视化结果显示其能捕捉复杂3D场景的多尺度特征。

    • 消融实验

      • 基数量影响:基数量M设置为96时分类任务性能最佳,基数量过少模型上下文不足,过多虽对准确率提升不大但会增加延迟。
      • 多尺度特征聚合影响:去除该步骤会使ModelNet40和ShapeNet上的性能显著降低,表明多尺度特征聚合的重要性。
      • PAT影响:PAT比无注意力基线(MLP)更有效,与EdgeConv和自注意力基线相比也有性能提升,且相比其他线性注意力机制,PAT在准确性和运行速度上表现最佳,具有计算成本低(只需对原始点云计算一次K-Means)和对物体刚性变换鲁棒性强的优点。
      • 3D相对位置偏差影响:加入3D相对位置偏差可使PatchFormer在ModelNet40和ShapeNet上的OA和mIoU分别提升0.37%和0.47%,证明其有效性。

PatchFormer通过提出PAT和MST模块,有效解决了现有点云Transformer计算成本高和难以构建多尺度特征的问题,在点云学习的分类、分割等任务中表现优异,具有高效和准确的特点。