VL-BERT(Visual-Linguistic BERT)是一种用于视觉-语言任务的预训练模型,它基于Transformer架构,并将其扩展以同时处理视觉和语言嵌入特征作为输入。VL-BERT的输入可以是来自输入句子的单词或者来自输入图像的感兴趣区域(Region-of-Interest, RoI)。这种模型设计旨在适应大多数视觉-语言下游任务。
VL-BERT的主要特点包括:
-
多模态输入:VL-BERT能够处理来自图像的视觉信息和来自文本的语言信息,这使得它能够捕捉视觉和语言之间的关联。
-
预训练:VL-BERT在大规模的概念标注数据集Conceptual Captions上进行预训练,这有助于模型更好地对齐视觉和语言的线索,并提高在下游任务中的表现。
-
下游任务性能提升:VL-BERT在视觉常识推理、视觉问答和引用表达式理解等下游任务上表现出色,甚至在VCR(Visual Commonsense Reasoning)基准测试中取得了单模型第一名的成绩。
-
代码开源:VL-BERT的代码已经在GitHub上发布,方便研究者和开发者使用和进一步研究。
VL-BERT的出现标志着从仅在任务训练中学习视觉和语言之间的关联,转向将视觉定位视为一种可预训练和可迁移的能力。这种预训练的通用特征表示对于计算机视觉和自然语言处理领域的交叉任务,如图像标题生成、视觉问答、视觉常识推理等,具有重要意义。