PRM vs ORM:大模型训练中的奖励信号博弈论
1. 奖励模型的战略价值与技术分野
在大型语言模型的训练过程中,奖励模型(Reward Model)正成为决定模型性能上限的关键变量。当我们深入分析这一领域的技术演进路径时,会发现两种截然不同的设计哲学正在形成竞争态势:结果奖励模型(Outcome Reward Model,ORM)和过程奖励模型(Process Reward Model,PRM)。这两种范式不仅在技术实现上存在差异,更体现了对智能体学习机制的不同理解。
ORM的核心特征在于其"终点裁判"的定位。它仅对生成内容的最终结果进行二元评判,这种设计源于传统的强化学习框架。在文本生成任务中,ORM会等待模型完成全部输出后,基于预设的标准(如事实准确性、语言流畅度或人类偏好)给出单一评分。这种方式的优势在于实现简单且计算开销较小,但缺陷同样明显:当模型生成长篇内容时,稀疏的反馈信号难以指导中间过程的优化,容易陷入"结果正确但过程错误"的困境。
相比之下,PRM采用了"过程教练"的定位。美团技术团队在VSRM(Verifiable Stepwise Reward Model)实践中发现,对推理链的每个步骤进行即时评估,可使模型在数学推理任务中的错误率降低40%。这种密集奖励机制模拟了人类教学中的分步指导,特别是在以下场景表现突出:
- 多步数学证明(如代数方程求解)
- 复杂逻辑推理(如法律条文分析)
- 创造性内容生成(如故事接龙)
| 评估维度 | ORM | PRM |
|---|---|---|
| 反馈粒度 | 稀疏(单次) | 密集(逐步骤) |
| 训练数据需求 | 相对较低 | 显著较高 |
| 局部 |


3万+

被折叠的 条评论
为什么被折叠?



