InternVL是一个大型的多模态基础模型,旨在缩小开源和专有商业模型在多模态理解能力上的差距。以下是关于InternVL的一些关键信息:
-
模型架构与特点:
- InternVL模型采用了与流行的多模态大模型相似的架构,通过MLP映射器将预训练的视觉编码器与语言模型结合在一起。
- InternVL 1.5版本能够根据输入图像的长宽比和分辨率,动态地将图像划分为不同大小的图块,最高支持4K分辨率的输入。
- InternVL 1.5在OCR和中文相关任务中表现出色,通过收集和注释高质量的双语数据集。
- InternVL 2.0系列模型支持图像、视频、文本、语音、三维、医疗等多种模态,百种下游任务性能媲美任务专用模型。
-
性能表现:
- InternVL 1.5在多个权威榜单认证中,性能比超国际上的一系列闭源模型,如Open AI公司的GPT-4V、谷歌Gemini Pro等。
- InternVL 2.0在关键评测指标上比肩国际顶尖商用闭源模型,支持多种模态和任务。
-
开源信息:
- InternVL全系列模型、代码均已开源,并提供Demo试用。
- 模型的GitHub开源链接为:https://github.com/OpenGVLab/InternVL。
- 论文链接为:https://arxiv.org/abs/2312.14238。
-
技术突破与创新:
- InternVL的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。
- InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。
InternVL作为一个多模态大模型,展示了在多模态理解和交互任务中的卓越性能,为推动多模态人工智能的发展做出了重要贡献。