[2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

“DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models”由Zhihong Shao等人撰写。文章介绍了DeepSeekMath 7B模型,通过构建大规模数学语料库和采用新的强化学习算法,显著提升了开源模型的数学推理能力,在多个数学基准测试中取得优异成绩,接近GPT-4等闭源模型的性能水平。

  1. 研究背景:大语言模型在数学推理方面取得进展,但GPT-4和Gemini-Ultra等前沿模型未开源,现有开源模型性能差距较大。

  2. 研究贡献

    • 大规模数学预训练:利用Common Crawl数据构建120B规模的高质量DeepSeekMath语料库,预训练的DeepSeekMath-Base 7B模型性能可与Minerva 540B媲美,证明数据质量对模型性能的重要性;发现代码训练有助于提升数学推理能力,且arXiv论文对提高数学推理能力效果不明显。
    • 强化学习探索与分析:提出Group Relative Policy Optimization (GRPO)算法,通过组分数估计基线,减少训练资源消耗;为理解不同训练方法提供统一范式,通过实验深入探究范式的关键要素,并总结强化学习有效的原因及未来改进方向。
  3. 模型训练与评估

    • 数学预训练:从Common Crawl收集数据构建语料库,经多次迭代和去重、去污染处理,得到高质量、多语言、大规模的语料库;使用该语料库训练的DeepSeekMath-Base 7B模型在多种数学和通用基准测试中表现出色。
    • 监督微调:构建包含多种推理格式的数学指令微调数据集,对DeepSeekMath-Base进行微调得到DeepSeekMath-Instruct 7B,在数学推理任务中优于多数开源模型,与部分闭源模型相当。
    • 强化学习:提出GRPO算法,分别在结果监督、过程监督和迭代RL设置下进行实验;基于DeepSeekMath-Instruct 7B训练的DeepSeekMath-RL 7B模型在多个基准测试中超越所有7B - 70B开源模型及多数闭源模型。
  4. 实验分析

    • 预训练实验:验证代码训练对数学推理的促进作用,以及arXiv论文在提升数学推理能力方面的局限性。
    • 强化学习实验:提供统一范式分析不同训练方法,发现在线采样数据和基于模型的梯度系数调整能提升模型性能;RL通过使输出分布更稳健提升模型性能,未来可从数据来源、算法和奖励函数三方面改进RL。
  5. 研究结论:DeepSeekMath在数学推理基准测试中表现优异,接近闭源模型性能,但在几何和定理证明能力、少样本学习能力方面存在不足。未来将改进数据选择管道,探索更有效的强化学习方法。