GRPO(Group Relative Policy Optimization)是一种用于优化大语言模型(LLMs)的强化学习算法,由DeepSeek团队提出,旨在解决传统PPO算法在大模型训练中的资源消耗问题。

算法原理

GRPO的核心思想是通过组内相对奖励来估计优势函数(Advantage Function),从而避免使用额外的价值函数模型(Critic Model),显著减少了内存和计算资源的消耗。在传统PPO中,需要训练一个与策略模型(Policy Model)同等规模的价值模型来估计优势函数,而GRPO通过以下方式实现优化:

  • 采样与奖励计算:对于每个输入问题 q,策略模型生成多个输出 {o1​,o2​,…,oG​},然后通过奖励模型对每个输出进行打分。

  • 相对奖励估计:将每个输出的奖励 ri​ 进行归一化处理,得到相对奖励 r~i​=std(r)ri​−mean(r)​,并将其作为每个token的优势函数。

优势与应用场景

  • 资源效率:GRPO省略了价值模型,显著减少了内存和计算资源的消耗。 多候选优化:在需要生成多个候选答案的场景(如数学推理、对话生成等)中,GRPO通过多候选的互相比较来改进策略,采样成本较低。
  • 训练稳定性:保留了PPO的ratio范式与KL正则机制,训练过程稳定且可控。

未来研究方向

  • 细粒度监督:探索如何在分组奖励中结合细粒度的过程监督,以获得更准确的反馈。
  • 鲁棒性提升:研究在奖励模型不确定性(如噪声标注或不完善RM)下,GRPO的鲁棒性提升方案。
  • 与其他策略整合:将GRPO与其他对齐策略(如RFT、DPO等)深度整合,形成更通用的框架。

GRPO算法为大语言模型的强化学习优化提供了一种高效且稳定的方法,尤其适用于资源受限的场景。