MVBench是由上海人工智能实验室、中国科学院深圳先进技术研究院等多机构联合提出的多模态大模型视频理解能力基准,以下是关于它的详细介绍:

提出背景

目前许多基准测试主要集中在静态图像任务的空间理解上,而忽视了动态视频任务中的时间理解,MVBench旨在填补这一空白,全面评测现有多模态模型的视频理解能力。

任务定义

通过比较图像和视频任务的本质区别,从MME、MMBench等图像基准中总结出9项空间理解任务,并延伸出20项时间理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。例如将图像中的位置任务转换为视频中的移动方向任务。

数据构建

  1. 数据来源:收集了多个开源的视频数据集。

  2. 数据筛选原则

    • 视频多样性:对不同的视频设计独立的问题。
    • 时序敏感性:提取每个数据集中合适的视频长度,避免过短或过长。
    • 问题复杂度:采用难度适中的问题,包括添加条件限制、粗略时间段定位等问题修饰。
  3. 自动问答生成

    • 问题生成:基于ChatGPT任务的定义,为每个任务生成3-5个对应的问题并随机选其一。
    • 选项生成:设计出两种策略,包括基于模版的构造和基于将原有数据集中的问答输入ChatGPT来生成新的问题及选项。

评测提示词设计

  1. 系统提示词:用于激发模型的时间理解能力。

  2. 答案提示词:针对对话模型难以直接输出选项的现状,通过构造带括号“()”的选项,控制对话模型输出的起始字符“best option: (”,保证模型直接输出选项,同时提高答案的准确率。

作用及意义

  1. 为多模态大模型的视频理解能力提供了全面、科学、公正的评测标准,推动多模态模型在视频理解领域的发展。

  2. 通过在MVBench上的评测,能发现现有模型的不足,如缺乏多样的指令微调数据、缺乏强视频编码器等,为模型的改进和优化提供方向。

  3. 开源的代码、数据等资源,为研究人员提供了便利,促进了多模态视频理解领域的研究和创新。

相关模型表现

  1. VideoChat2作为基于MVBench提出的基线模型,相比此前较强模型评分提升近15%,在15个任务上取得了最佳性能表现,但在处理移动方向、动作定位、计数等任务上仍有不足。

  2. VideoGPT+在MVBench上的平均得分为58.7%,比VideoChat2提升了7.6%,在14个任务中取得了最佳结果,并在4个任务中排名第二。

所有代码、模型权重、训练数据、评测数据等的开源链接为https://github.com/opengvlab/ask-anything/tree/main/video_chat2。评测数据集可在https://huggingface.co/datasets/opengvlab/mvbench获取。