mPLUG是阿里巴巴达摩院推出的一系列多模态模型,以下是关于它的详细介绍:

mPLUG初代

  • 架构创新:引入了新的非对称视觉语言架构和跨模态跳跃连接。这种跨模态跳跃连接结合了拼接跳跃连接和求和跳跃连接,能决定每一层是关注所有拼接的不同模态表示,还是只专注于跨模态交互部分,使得融合可以在不同的抽象层级进行。
  • 性能表现:在2021年VQA Challenge排名第一,以81.26的成绩首次超越了人类,展示了其在视觉问答任务上的强大能力。

mPLUG-2

  • 设计理念:为解决现有多模态模型难以平衡模态协作和模态纠缠的问题,采用模块化的网络设计。通过设计特定的共享功能模块来鼓励模态协作,同时保留特定于模态的模块以缓解模态纠缠问题。
  • 模型结构:主体结构包含文本编码器、视觉编码器、通用层模块、多模态融合模块以及一个共享的解码器模块。双视觉编码器用于提取图像、视频等视觉模态的信息,将视频分解为空间和时间表示,并提出新颖的局部时序建模模块;通用层模块使得视觉和语言模态共享语义空间,降低了计算复杂度。
  • 实验成果:在30多个多模态及单模态任务上,相比采用同等数据和模型规模的方法取得了领先或相近的性能,在VideoQA和VideoCaption等任务上,超越了Flamingo、VideoCoCa等超大规模模型。

mPLUG-Owl

  • 技术延续:是mPLUG系列的最新工作,延续了mPLUG系列的模块化训练思想,把LLM升级为一个多模态对话大模型。
  • 技术定位:属于端到端的多模态对话大模型,希望通过一个模型同时拥有多模态与文本的能力,与MiniGPT-4、LLAVA、Kosmos等模型类似。

mPLUG系列模型通过不断的创新和改进,在多模态预训练、视觉语言理解与生成、多模态对话等多个领域都取得了显著的成果,为多模态技术的发展做出了重要贡献。