InternVL是一个大型的多模态基础模型,旨在缩小开源和专有商业模型在多模态理解能力上的差距。以下是关于InternVL的一些关键信息:

  1. 模型架构与特点

    • InternVL模型采用了与流行的多模态大模型相似的架构,通过MLP映射器将预训练的视觉编码器与语言模型结合在一起。
    • InternVL 1.5版本能够根据输入图像的长宽比和分辨率,动态地将图像划分为不同大小的图块,最高支持4K分辨率的输入。
    • InternVL 1.5在OCR和中文相关任务中表现出色,通过收集和注释高质量的双语数据集。
    • InternVL 2.0系列模型支持图像、视频、文本、语音、三维、医疗等多种模态,百种下游任务性能媲美任务专用模型。
  2. 性能表现

    • InternVL 1.5在多个权威榜单认证中,性能比超国际上的一系列闭源模型,如Open AI公司的GPT-4V、谷歌Gemini Pro等。
    • InternVL 2.0在关键评测指标上比肩国际顶尖商用闭源模型,支持多种模态和任务。
  3. 开源信息

  4. 技术突破与创新

    • InternVL的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。
    • InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。

InternVL作为一个多模态大模型,展示了在多模态理解和交互任务中的卓越性能,为推动多模态人工智能的发展做出了重要贡献。