LLM | LLM入门

标签: LLM 更新于: 2025/02/13 阅读:117 原文发表于：2024-07-24

LLM中的RLHF

Reinforcement Learning from Human Feedback（RLHF）

介绍了怎么使用强化学习的框架来搭建大语言模型的训练流程。

参考

大模型的数学之路