ViLBERT(Vision-and-Language BERT)是一个用于学习图像内容和自然语言之间无任务依赖的联合表示的模型。它将流行的BERT架构扩展到一个多模态的双流模型,分别在独立的流中处理视觉和文本输入,并通过共注意力(co-attention)的Transformer层进行交互。ViLBERT在大型自动采集的概念性字幕(Conceptual Captions)数据集上通过两个代理任务对模型进行预训练,然后通过对基础架构进行少量修改,将其迁移到多个已建立的视觉-语言任务上,包括视觉问答、视觉常识推理、指代表达和基于字幕的图像检索。在这些任务上,ViLBERT相比于现有的任务特定模型都取得了显著提升,实现了最先进的水平。

ViLBERT的关键技术创新是引入了用于视觉和语言处理的独立流,它们通过共注意力变换层进行通信。这种结构可以适应每种模态不同的处理需求,并在不同的表示深度上提供模态间的交互。ViLBERT的工作代表了从仅在任务训练中学习视觉和语言之间的关联转向将视觉定位视为一种可预训练和可迁移能力的转变。

ViLBERT模型的网络结构特点是使用了双流模型,对应双流处理机制分别对文本模态与视觉模态进行处理,然后采用Co-TRM机制对视觉与文本的query进行交叉,也可以认为是模态间的双向注意力机制。这种设计使得ViLBERT能够分别提取图像和文本中的关键信息,为后续的跨模态交互奠定基础。ViLBERT通过这种结构在多个视觉-语言任务中取得了优异的性能。