CogVLM是由智谱AI与清华大学联合开发的一款先进的开源视觉语言模型,它通过引入视觉专家模块(visual expert module)在注意力层(attention layer)和前馈网络层(FFN layer)中深度整合语言编码和视觉编码,实现了视觉语言特征的深层融合,而不牺牲任何自然语言处理(NLP)任务的性能。
模型架构
CogVLM模型由以下四个基本组件构成:
-
视觉变换器(ViT)编码器:用于从图像中提取高级特征,并将其映射到与GPT相同的维度空间。
-
MLP适配器:用于将ViT编码器和GPT之间的参数差异进行适配,并保持GPT参数不变。
-
预训练的大型语言模型(GPT):负责处理跨模态序列,并输出最终结果。
-
视觉专家模块:在每个注意力层和FFN层中增强视觉编码和语言编码之间的交互,并提高视觉理解能力。
模型效果
CogVLM-17B模型在多个跨模态基准测试中取得了卓越的成绩,包括图像字幕(Image Captioning)、视觉问答(Visual QA)和视觉定位(Visual Grounding)等任务。它在10项基准中取得SOTA性能,而在另外四项取得第二的成绩,整体性能超越或匹配谷歌的PaLI-X 55B。
应用场景
CogVLM适用于多种多模态场景,包括但不限于:
- 图像字幕(Image Captioning)
- 视觉问答(Visual QA)
- 视觉定位(Visual Grounding)
- 详细描述和视觉问答(Detailed Description & Visual Question Answering)
- 复杂计数(Complex Counting)
- 视觉数学问题求解(Visual Math Problem Solving)
- 无OCR推理(OCR-Free Reasoning)
- 无OCR视觉问答(OCR-Free Visual Question Answering)
- 世界知识(World Knowledge)
- 指代表达理解(Referring Expression Comprehension)
- 基于视觉输入的编程(Programming with Visual Input)。
开源信息
CogVLM模型的代码和检查点已在GitHub上开源,供研究和工业应用使用。这为多模态模型的研究和应用提供了强大的工具和资源。