“图片Patch token”通常在计算机视觉尤其是基于Transformer架构处理图像的相关情境中有涉及。
含义
在图像Transformer模型里,比如常用的ViT(Vision Transformer)等,会先将一幅图像划分成一个个小块(patches),这些小块就相当于图像的基本组成单元了。然后通过对这些小块进行编码等操作得到对应的表示,也就是Patch token。可以把它理解为是对图像中每个局部区域(小块)特征的一种数字化、可被模型后续处理的表征形式。
作用
-
特征提取方面:Patch token携带了图像局部区域的信息,在后续Transformer的多头注意力等机制处理中,能让模型捕捉到图像不同局部之间的关系以及融合这些局部特征,从而提取出有效的图像整体特征,这有助于图像分类、目标检测、语义分割等各种下游视觉任务的性能提升。
-
适配模型结构:将图像转化为Patch token序列的形式后,能够很好地契合Transformer原本处理序列数据的架构特点,使得Transformer这种原本在自然语言处理领域大放异彩的架构可以顺利应用到图像领域中开展工作。
生成过程举例(以ViT为例)
首先会把输入的图像按照固定大小(例如16×16像素等这样的尺寸)划分成多个不重叠的小块(patches),然后通过线性映射(比如全连接层等方式)将每个小块的像素值转化为固定维度的向量,这个向量就是对应的Patch token了,之后再加上位置编码等信息,一起输入到Transformer的编码器部分进行后续处理。
总之,图片Patch token是连接图像数据和Transformer架构来进行图像理解任务的重要中间表示形式。