多模态预训练架构UNIMO是一种旨在实现统一模态理解和生成的模型架构,以下是关于它的详细介绍:

模型基础架构

  • 基于Transformer:UNIMO利用多层自注意力的Transformer来学习视觉和文本的统一语义特征,以处理不同模态的数据。

  • 输入处理

    • 图像:首先将图像转换为region特征序列,然后输入到自注意力机制中学习上下文特征,IMG表示全局图像特征。
    • 文本:首先将文本转换为subwords序列,然后输入到自注意力机制中学习上下文特征。
    • 图像文本对:将视觉特征和文本特征拼接起来,输入到multi-layer Transformer network来学习跨模态上下文特征。

关键技术

  • 跨模态对比学习(CMCL)

    • 正负样本生成:正样本通过反译,即将文本翻译为另一种语言,然后再翻译回来得到。负样本分为sentence-level、phrase-level、word-level多个级别,通过Text Rewriting得到。同时将image-text pair通过从单模态数据中进行检索来得到相似度高的image和text。
    • 特征计算:将得到的image和text单独通过统一模态Transformer进行编码,将提取到的特征输入到跨模态对比loss中进行计算,以将文本和视觉信息对齐到一个统一的语义空间。
  • 多模态学习任务

    • 视觉学习:包含Restruct masked region and region classification,即对图像中masked的区域进行重构以及区域分类任务。
    • 语言学习:包括Bidirectional prediction和Seq2Seq generation,即双向预测和序列到序列的生成任务。

模型优势

  • 统一多模态处理:可以有效适应单模态任务和多模态任务,将视觉和文本信息统一到一个语义空间中进行处理和理解,避免了以往多模态模型在单模态场景中表现不佳的问题。

  • 利用大规模数据:利用了大量自由的语料库和图像集来增强视觉和文本的理解,使模型能够学习到更丰富的知识和特征,提高了模型的泛化能力。

  • 增强跨模态理解:通过跨模态对比学习等技术,使模型能够更好地捕捉视觉和文本之间的语义关联,增强了跨模态的理解能力,有助于提高在各种多模态任务上的性能。

此外,百度还提出了UNIMO-G。这是一种统一图像生成框架,通过多模态条件扩散实现文本到图像生成。它包含多模态大语言模型(MLLM)和基于编码的多模态输入生成图像的条件去噪扩散网络两个核心组件,通过两阶段训练策略达到统一的图像生成能力。