论文：PatchFormer: An Efficient Point Transformer with Patch Attention

《PatchFormer: An Efficient Point Transformer with Patch Attention》总结

研究背景与问题提出
- Transformer在点云学习中的应用与局限：Transformer在自然语言处理和2D视觉领域表现出色，其自注意力机制（SA）能捕捉长距离依赖关系，因此被引入点云学习。然而，现有基于点云的Transformer计算成本高，因为SA模块生成的注意力图计算复杂度高，且在空间和时间上与输入点云大小呈二次关系，同时在处理不规则数据结构时效率低，且难以构建多尺度特征关系。
PatchFormer架构概述
- 整体架构：PatchFormer主要由多尺度注意力（MST）模块和补丁注意力（PAT）模块组成，模型分为三个阶段，每个阶段包含MST和PAT模块。输入点云先通过共享多层感知机（MLP）嵌入到D维空间，然后依次经过各阶段模块处理，最后通过特定任务头（如分类头）完成任务。
- MST模块
  - 多尺度特征聚合：将点云体素化后，使用不同尺度的深度可分离卷积（DWConv）核采样并拼接，为各阶段生成多尺度特征。例如在第一阶段使用三种不同大小的DWConv核（如3×3×3、5×5×5、7×7×7）采样，然后将对应中心但不同尺度的三个盒子投影拼接成一个嵌入。在其他阶段使用不同数量和大小的核，且大步长设置为1×1×1，对于大于5×5×5的核通过堆叠较小核实现，同时根据核大小分配不同维度以降低计算成本。
  - 注意力构建：将自注意力计算限制在非重叠局部3D窗口内，并引入3D相对位置偏差来构建不同尺度特征间的注意力，从而在计算效率和模型性能间取得平衡，且无需堆叠过多注意力层来扩大感受野。
- PAT模块
  - 基估计：通过将点云分割成M个小块（M << N），用K-Means算法默认将分类任务中的点云分割为96块，基于此创建紧凑的基集B，每个基由小块内点的特征聚合而成，通过数据驱动方式自适应调整点对基的贡献，以拟合内在几何子流形。
  - 数据重估计：用估计的基B替换SA中的K矩阵重新计算注意力图A，然后用A和B重新估计输入F，计算估计特征与输入特征的差异并通过MLP层和残差连接传递信息，PAT降低了计算复杂度（从O(N²)到O(MN)）且输出具有低秩特性。
实验结果与分析
- 形状分类任务：在ModelNet40数据集上进行实验，PatchFormer整体准确率达93.5%，优于诸多模型，如DGCNN、KPConv和PointASNL等，与现有Transformer模型相比，速度提升9.2倍且准确率相当。计算资源需求方面，PatchFormer参数仅2.45M，FLOPs为1.62G，且在处理不规则数据上仅花费6.3%的总运行时间，适合边缘设备部署。
- 对象分割任务：在ShapeNet Parts数据集实验，PatchFormer在相似准确率下比PT2快12.4倍、比PCT快2.2倍，比PointASNL快22.7倍且准确率更高，同时可视化展示了PAT模块中基与注意力图在对象分割中的作用。
- 室内场景语义分割任务：在S3DIS数据集上，PatchFormer达到68.1%的mIoU，超过DGCNN、MinkowskiNet、KPConv、PointASNL和PT1等模型，且在延迟方面优势明显，可视化结果显示其能捕捉复杂3D场景的多尺度特征。
- 消融实验
  - 基数量影响：基数量M设置为96时分类任务性能最佳，基数量过少模型上下文不足，过多虽对准确率提升不大但会增加延迟。
  - 多尺度特征聚合影响：去除该步骤会使ModelNet40和ShapeNet上的性能显著降低，表明多尺度特征聚合的重要性。
  - PAT影响：PAT比无注意力基线（MLP）更有效，与EdgeConv和自注意力基线相比也有性能提升，且相比其他线性注意力机制，PAT在准确性和运行速度上表现最佳，具有计算成本低（只需对原始点云计算一次K-Means）和对物体刚性变换鲁棒性强的优点。
  - 3D相对位置偏差影响：加入3D相对位置偏差可使PatchFormer在ModelNet40和ShapeNet上的OA和mIoU分别提升0.37%和0.47%，证明其有效性。

PatchFormer通过提出PAT和MST模块，有效解决了现有点云Transformer计算成本高和难以构建多尺度特征的问题，在点云学习的分类、分割等任务中表现优异，具有高效和准确的特点。

论文：PatchFormer: An Efficient Point Transformer with Patch Attention

论文相关文章

最近热门

最常浏览