DPO PPO GRPO RLHF 的区别

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

在大型语言模型 (LLM) 的训练和优化过程中,为了使模型的输出更符合人类的偏好和期望,研究人员开发了多种技术。其中,RLHF (Reinforcement Learning from Human Feedback) 是一个核心框架,而 PPO (Proximal Policy Optimization)、DPO (Direct Preference Optimization) 和 GRPO (Group Relative Policy Optimization) 则是实现这一目标相关的具体算法或方法。

1. RLHF (Reinforcement Learning from Human Feedback) - 基于人类反馈的强化学习

RLHF 是一种多阶段的训练方法,旨在将人类的偏好整合到模型的学习过程中。其核心思想是:

  • 收集人类偏好数据: 首先,针对一系列输入(prompts),让模型生成多个输出。然后,人类评估者对这些输出进行排序或选择最优的那个。

  • 训练奖励模型 (Reward Model, RM): 利用收集到的人类偏好数据,训练一个奖励模型。这个模型学习预测对于给定的输入和输出,人类会给出多高的评分,或者说哪个输出更优。

  • 通过强化学习微调语言模型: 将训练好的奖励模型作为强化学习环境中的“奖励函数”。然后使用强化学习算法(如 PPO)来微调原始的语言模型,使其生成的输出能够获得更高的奖励分数,从而更符合人类偏好。

简单来说,RLHF 是一个“框架”或“流程”,它利用人类的判断来指导模型的学习方向。

​​​​​​​

2. PPO (Proximal Policy Optimization) - 近端策略优化

PPO 是一种由 OpenAI 开发的强化学习算法,广泛应用于 RLHF 的第三阶段。它的主要特点和目标是:

  • 策略梯度方法: PPO 属于策略梯度算法,它直接学习一个策略(即模型如何根据输入生成输出)。

  • 稳定性与效率: PPO 的设计目标是在更新策略时,既能有效学习,又能避免过大的更新幅度导致训练不稳定。它通过一种“裁剪”目标函数的方式,限制了新旧策略之间的差异,从而实现更平稳和可靠的训练。

  • 在 RLHF 中的角色: 在 RLHF 中,PPO 利用奖励模型提供的奖励信号,调整语言模型的参数,使其倾向于生成能够获得高奖励(即更受人类偏好)的文本。

简单来说,PPO 是 RLHF 流程中常用的一种具体的“强化学习工具”,用于优化语言模型。

3. DPO (Direct Preference Optimization) - 直接偏好优化

DPO 是一种较新的方法,旨在简化 RLHF 的流程,特别是绕过了显式训练奖励模型和复杂的强化学习微调步骤。其核心思想是:

  • 直接从偏好数据学习: DPO 直接使用人类标注的偏好数据(例如,对于同一个提示,哪个回答更好)。

  • 无需显式奖励模型: 它不依赖于一个单独训练的奖励模型。相反,它将偏好学习问题转化为一个简单的分类损失函数。模型被训练来直接最大化选择“更优”回答的概率,同时最小化选择“较差”回答的概率。

  • 更简单稳定: 相比于传统 RLHF 中需要拟合奖励模型再进行 RL 优化的多阶段过程,DPO 通常被认为更简单、更稳定,并且在计算上也可能更高效。

简单来说,DPO 是一种“更直接”的对齐方法,它不经过奖励模型这一中间步骤,直接根据人类偏好数据优化语言模型。

4. GRPO (Group Relative Policy Optimization) - 分组相对策略优化

GRPO 是一种相对较新的强化学习算法,可以看作是 PPO 的一种变体或改进,特别关注于在处理复杂任务(如数学问题或代码生成)时 LLM 的训练。

  • 针对复杂推理: GRPO 的设计旨在提升 LLM 在需要复杂推理的任务上的表现。

  • 内存效率: 一些资料表明 GRPO 的设计考虑了内存效率,例如通过不使用单独的“价值函数”(用于估计未来奖励的模型)来实现。

  • 工作方式(根据部分资料): 它可能涉及对每个问题生成多个答案,然后使用奖励模型对这些答案进行评分。之后,将每个答案的分数与该问题所有答案的平均分进行比较(作为基线),以确定哪些答案更好。模型会更新以倾向于那些得分高于平均值的答案。

  • DeepSeek 模型应用: GRPO 曾被 DeepSeek 等模型在训练中提及使用。

简单来说,GRPO 是 PPO 的一个特定变体或相关方法,旨在优化 LLM 在复杂任务上的表现,并可能具有内存效率方面的优势。

主要区别总结

 

结论

  • RLHF 是一个高层次的框架,描述了如何使用人类反馈来改进 AI 系统。

  • PPO 是在 RLHF 框架内常用的一种强大的强化学习算法,用于根据奖励信号微调模型。

  • DPO 提供了一种更直接、可能更简单且计算效率更高的方式来对齐 LLM 与人类偏好,它避免了显式训练奖励模型和复杂的 RL 过程。

  • GRPO 似乎是 PPO 的一种特定优化或变体,旨在提高在复杂推理任务上的性能和训练效率。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值