GRPO(Group Relative Policy Optimization)是一种用于优化大语言模型(LLMs)的强化学习算法,由DeepSeek团队提出,旨在解决传统PPO算法在大模型训练中的资源消耗问题。
算法原理
GRPO的核心思想是通过组内相对奖励来估计优势函数(Advantage Function),从而避免使用额外的价值函数模型(Critic Model),显著减少了内存和计算资源的消耗。在传统PPO中,需要训练一个与策略模型(Policy Model)同等规模的价值模型来估计优势函数,而GRPO通过以下方式实现优化:
-
采样与奖励计算:对于每个输入问题 q,策略模型生成多个输出 {o1,o2,…,oG},然后通过奖励模型对每个输出进行打分。
-
相对奖励估计:将每个输出的奖励 ri 进行归一化处理,得到相对奖励 r~i=std(r)ri−mean(r),并将其作为每个token的优势函数。
优势与应用场景
- 资源效率:GRPO省略了价值模型,显著减少了内存和计算资源的消耗。 多候选优化:在需要生成多个候选答案的场景(如数学推理、对话生成等)中,GRPO通过多候选的互相比较来改进策略,采样成本较低。
- 训练稳定性:保留了PPO的ratio范式与KL正则机制,训练过程稳定且可控。
未来研究方向
- 细粒度监督:探索如何在分组奖励中结合细粒度的过程监督,以获得更准确的反馈。
- 鲁棒性提升:研究在奖励模型不确定性(如噪声标注或不完善RM)下,GRPO的鲁棒性提升方案。
- 与其他策略整合:将GRPO与其他对齐策略(如RFT、DPO等)深度整合,形成更通用的框架。
GRPO算法为大语言模型的强化学习优化提供了一种高效且稳定的方法,尤其适用于资源受限的场景。