CogVLM是由智谱AI与清华大学联合开发的一款先进的开源视觉语言模型,它通过引入视觉专家模块(visual expert module)在注意力层(attention layer)和前馈网络层(FFN layer)中深度整合语言编码和视觉编码,实现了视觉语言特征的深层融合,而不牺牲任何自然语言处理(NLP)任务的性能。

模型架构

CogVLM模型由以下四个基本组件构成:

  1. 视觉变换器(ViT)编码器:用于从图像中提取高级特征,并将其映射到与GPT相同的维度空间。

  2. MLP适配器:用于将ViT编码器和GPT之间的参数差异进行适配,并保持GPT参数不变。

  3. 预训练的大型语言模型(GPT):负责处理跨模态序列,并输出最终结果。

  4. 视觉专家模块:在每个注意力层和FFN层中增强视觉编码和语言编码之间的交互,并提高视觉理解能力。

模型效果

CogVLM-17B模型在多个跨模态基准测试中取得了卓越的成绩,包括图像字幕(Image Captioning)、视觉问答(Visual QA)和视觉定位(Visual Grounding)等任务。它在10项基准中取得SOTA性能,而在另外四项取得第二的成绩,整体性能超越或匹配谷歌的PaLI-X 55B。

应用场景

CogVLM适用于多种多模态场景,包括但不限于:

  • 图像字幕(Image Captioning)
  • 视觉问答(Visual QA)
  • 视觉定位(Visual Grounding)
  • 详细描述和视觉问答(Detailed Description & Visual Question Answering)
  • 复杂计数(Complex Counting)
  • 视觉数学问题求解(Visual Math Problem Solving)
  • 无OCR推理(OCR-Free Reasoning)
  • 无OCR视觉问答(OCR-Free Visual Question Answering)
  • 世界知识(World Knowledge)
  • 指代表达理解(Referring Expression Comprehension)
  • 基于视觉输入的编程(Programming with Visual Input)。

开源信息

CogVLM模型的代码和检查点已在GitHub上开源,供研究和工业应用使用。这为多模态模型的研究和应用提供了强大的工具和资源。