[2412.10360] Apollo: An Exploration of Video Understanding in Large Multimodal Models

“Apollo: An Exploration of Video Understanding in Large Multimodal Models”一文聚焦于大型多模态模型(LMMs)中视频理解的研究,通过系统性探索视频建模设计空间、发现缩放一致性、优化评估基准以及引入Apollo模型系列,为视频 - LMMs的发展提供了重要的理论支持和实践经验,推动了该领域的进一步发展。

  1. 研究背景与动机:视频大型多模态模型(video - LMMs)发展滞后,面临计算需求高和设计空间复杂等挑战,现有研究对视频相关设计决策的影响缺乏理解,因此开展此项研究。

  2. 视频基准评估分析

    • 基准质量评估:对多个开源LMMs在Video - MME、MLVU等基准测试集上进行测试,发现现有基准存在部分问题,如部分可仅通过文本理解或单帧图像回答,且长视频基准对视频感知能力依赖度随视频长度增加而降低。
    • 冗余性分析:计算基准间相关性,发现存在显著冗余,且不同视频时长组和问题格式间相关性较高。
    • ApolloBench的引入:为提高评估效率和针对性,筛选出依赖视频感知的问题,构建ApolloBench,其评估速度更快且与现有基准高度相关。
  3. 缩放一致性发现:通过训练21种不同设计的模型变体(使用4种不同LLMs),发现约2 - 4B参数的中等规模模型设计决策与更大模型高度相关($R^{2}>0.9$),即缩放一致性,可降低计算成本。研究表明,数据集大小约500K样本时,中等规模模型可有效向更大模型传递设计思路。

  4. 视频 - LMM设计空间探索

    • 视频采样:对比均匀采样和fps采样,实验表明fps采样在训练和推理中更优,且tps和fps存在权衡,8 - 32 tokens/帧性能较好。
    • 视频表示:测试多种图像和视频编码器及其组合,发现SigLIP - SO400M是最佳单编码器,结合InternVideo2性能最佳,且语言监督编码器优于自监督编码器。
    • 视频令牌重采样:比较mlp上投影+平均池化、2D卷积+平均池化和Perceiver重采样等方法,Perceiver重采样在减少令牌/帧时性能更优。
    • 视频令牌集成:实验四种集成策略,发现添加文本或可学习令牌(如 clip timestamps)可提高性能。
  5. 训练方法研究

    • 训练计划:测试单阶段、两阶段和三阶段等训练配置,发现逐步解冻不同组件的三阶段训练效果最佳。
    • 视频编码器训练:比较在不同数据上训练视频编码器及调整连接器的效果,发现仅在视频数据上微调视频编码器可提高性能,尤其是推理和特定领域任务。
    • 数据组成:研究文本、图像和视频数据混合比例,发现训练数据含10 - 14%文本数据且视频占比较高时性能最优。
  6. Apollo模型介绍:基于研究结果训练Apollo模型系列,采用Qwen2.5系列LLMs,结合SigLIP - SO400M和InternVideo2编码器等,使用3阶段训练计划和多样化数据集。Apollo模型在多个基准测试中表现优异,如Apollo - 3B超越多数7B模型,Apollo - 7B在7B规模模型中处于领先,甚至超越部分30B模型。

  7. 研究总结与展望:系统评估视频 - LMM领域,提出缩放一致性和ApolloBench,为研究提供指导和资源。未来可探索分离架构、深入研究缩放一致性、评估基于记忆的方法及开发对话评估基准等。