在大型语言模型 (LLM) 的训练和优化过程中,为了使模型的输出更符合人类的偏好和期望,研究人员开发了多种技术。其中,RLHF (Reinforcement Learning from Human Feedback) 是一个核心框架,而 PPO (Proximal Policy Optimization)、DPO (Direct Preference Optimization) 和 GRPO (Group Relative Policy Optimization) 则是实现这一目标相关的具体算法或方法。
1. RLHF (Reinforcement Learning from Human Feedback) - 基于人类反馈的强化学习
RLHF 是一种多阶段的训练方法,旨在将人类的偏好整合到模型的学习过程中。其核心思想是:
-
收集人类偏好数据: 首先,针对一系列输入(prompts),让模型生成多个输出。然后,人类评估者对这些输出进行排序或选择最优的那个。
-
训练奖励模型 (Reward Model, RM): 利用收集到的人类偏好数据,训练一个奖励模型。这个模型学习预测对于给定的输入和输出,人类会给出多高的评分,或者说哪个输出更优。
-
通过强化学习微调语言模型: 将训练好的奖励模型作为强化学习环境中的“奖励函数”。然后使用强化学习算法(如 PPO)来微调原始的语言模型,使其生成的输出能够获得更高的奖励分数,从而更符合人类偏好。
-

简单来说,RLHF 是一个“框架”或“流程”,它利用人类的判断来指导模型的学习方向。
2. PPO (Proximal Policy Optimization) - 近端策略优化
PPO 是一种由 OpenAI 开发的强化学习算法,广泛应用于 RLHF 的第三阶段。它的主要特点和目标是:
-
策略梯度方法: PPO 属于策略梯度算法,它直接学习一个策略(即模型如何根据输入生成输出)。
-
稳定性与效率: PPO 的设计目标是在更新策略时,既能有效学习,又能避免过大的更新幅度导致训练不稳定。它通过一种“裁剪”目标函数的方式,限制了新旧策略之间的差异,从而实现更平稳和可靠的训练。
-
在 RLHF 中的角色: 在 RLHF 中,PPO 利用奖励模型提供的奖励信号,调整语言模型的参数,使其倾向于生成能够获得高奖励(即更受人类偏好)的文本。
简单来说,PPO 是 RLHF 流程中常用的一种具体的“强化学习工具”,用于优化语言模型。
3. DPO (Direct Preference Optimization) - 直接偏好优化
DPO 是一种较新的方法,旨在简化 RLHF 的流程,特别是绕过了显式训练奖励模型和复杂的强化学习微调步骤。其核心思想是:
-
直接从偏好数据学习: DPO 直接使用人类标注的偏好数据(例如,对于同一个提示,哪个回答更好)。
-
无需显式奖励模型: 它不依赖于一个单独训练的奖励模型。相反,它将偏好学习问题转化为一个简单的分类损失函数。模型被训练来直接最大化选择“更优”回答的概率,同时最小化选择“较差”回答的概率。
-
更简单稳定: 相比于传统 RLHF 中需要拟合奖励模型再进行 RL 优化的多阶段过程,DPO 通常被认为更简单、更稳定,并且在计算上也可能更高效。
简单来说,DPO 是一种“更直接”的对齐方法,它不经过奖励模型这一中间步骤,直接根据人类偏好数据优化语言模型。
4. GRPO (Group Relative Policy Optimization) - 分组相对策略优化
GRPO 是一种相对较新的强化学习算法,可以看作是 PPO 的一种变体或改进,特别关注于在处理复杂任务(如数学问题或代码生成)时 LLM 的训练。
-
针对复杂推理: GRPO 的设计旨在提升 LLM 在需要复杂推理的任务上的表现。
-
内存效率: 一些资料表明 GRPO 的设计考虑了内存效率,例如通过不使用单独的“价值函数”(用于估计未来奖励的模型)来实现。
-
工作方式(根据部分资料): 它可能涉及对每个问题生成多个答案,然后使用奖励模型对这些答案进行评分。之后,将每个答案的分数与该问题所有答案的平均分进行比较(作为基线),以确定哪些答案更好。模型会更新以倾向于那些得分高于平均值的答案。
-
DeepSeek 模型应用: GRPO 曾被 DeepSeek 等模型在训练中提及使用。
简单来说,GRPO 是 PPO 的一个特定变体或相关方法,旨在优化 LLM 在复杂任务上的表现,并可能具有内存效率方面的优势。
主要区别总结

结论
-
RLHF 是一个高层次的框架,描述了如何使用人类反馈来改进 AI 系统。
-
PPO 是在 RLHF 框架内常用的一种强大的强化学习算法,用于根据奖励信号微调模型。
-
DPO 提供了一种更直接、可能更简单且计算效率更高的方式来对齐 LLM 与人类偏好,它避免了显式训练奖励模型和复杂的 RL 过程。
-
GRPO 似乎是 PPO 的一种特定优化或变体,旨在提高在复杂推理任务上的性能和训练效率。

1629

被折叠的 条评论
为什么被折叠?



