LLM中的RLHF

Reinforcement Learning from Human Feedback(RLHF)

介绍了怎么使用强化学习的框架来搭建大语言模型的训练流程。

参考