DPO PPO GRPO RLHF 的区别

原创已于 2025-06-06 11:23:11 修改 · 2.1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

于 2025-06-06 10:19:29 首次发布

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

RLHF 是一种多阶段的训练方法，旨在将人类的偏好整合到模型的学习过程中。其核心思想是：

收集人类偏好数据： 首先，针对一系列输入（prompts），让模型生成多个输出。然后，人类评估者对这些输出进行排序或选择最优的那个。
训练奖励模型 (Reward Model, RM)： 利用收集到的人类偏好数据，训练一个奖励模型。这个模型学习预测对于给定的输入和输出，人类会给出多高的评分，或者说哪个输出更优。
通过强化学习微调语言模型： 将训练好的奖励模型作为强化学习环境中的“奖励函数”。然后使用强化学习算法（如 PPO）来微调原始的语言模型，使其生成的输出能够获得更高的奖励分数，从而更符合人类偏好。

简单来说，RLHF 是一个“框架”或“流程”，它利用人类的判断来指导模型的学习方向。

PPO 是一种由 OpenAI 开发的强化学习算法，广泛应用于 RLHF 的第三阶段。它的主要特点和目标是：

策略梯度方法： PPO 属于策略梯度算法，它直接学习一个策略（即模型如何根据输入生成输出）。
稳定性与效率： PPO 的设计目标是在更新策略时，既能有效学习，又能避免过大的更新幅度导致训练不稳定。它通过一种“裁剪”目标函数的方式，限制了新旧策略之间的差异，从而实现更平稳和可靠的训练。
在 RLHF 中的角色： 在 RLHF 中，PPO 利用奖励模型提供的奖励信号，调整语言模型的参数，使其倾向于生成能够获得高奖励（即更受人类偏好）的文本。

简单来说，PPO 是 RLHF 流程中常用的一种具体的“强化学习工具”，用于优化语言模型。

DPO 是一种较新的方法，旨在简化 RLHF 的流程，特别是绕过了显式训练奖励模型和复杂的强化学习微调步骤。其核心思想是：

直接从偏好数据学习： DPO 直接使用人类标注的偏好数据（例如，对于同一个提示，哪个回答更好）。
无需显式奖励模型： 它不依赖于一个单独训练的奖励模型。相反，它将偏好学习问题转化为一个简单的分类损失函数。模型被训练来直接最大化选择“更优”回答的概率，同时最小化选择“较差”回答的概率。
更简单稳定： 相比于传统 RLHF 中需要拟合奖励模型再进行 RL 优化的多阶段过程，DPO 通常被认为更简单、更稳定，并且在计算上也可能更高效。

简单来说，DPO 是一种“更直接”的对齐方法，它不经过奖励模型这一中间步骤，直接根据人类偏好数据优化语言模型。

GRPO 是一种相对较新的强化学习算法，可以看作是 PPO 的一种变体或改进，特别关注于在处理复杂任务（如数学问题或代码生成）时 LLM 的训练。

针对复杂推理： GRPO 的设计旨在提升 LLM 在需要复杂推理的任务上的表现。
内存效率： 一些资料表明 GRPO 的设计考虑了内存效率，例如通过不使用单独的“价值函数”（用于估计未来奖励的模型）来实现。
工作方式（根据部分资料）： 它可能涉及对每个问题生成多个答案，然后使用奖励模型对这些答案进行评分。之后，将每个答案的分数与该问题所有答案的平均分进行比较（作为基线），以确定哪些答案更好。模型会更新以倾向于那些得分高于平均值的答案。
DeepSeek 模型应用： GRPO 曾被 DeepSeek 等模型在训练中提及使用。

简单来说，GRPO 是 PPO 的一个特定变体或相关方法，旨在优化 LLM 在复杂任务上的表现，并可能具有内存效率方面的优势。