PRM vs ORM：大模型训练中的奖励信号博弈论

原创

于 2026-02-07 13:37:11 发布 · 827 阅读

标签

#大模型 #PRM #ORM #AI训练

PRM vs ORM：大模型训练中的奖励信号博弈论

1. 奖励模型的战略价值与技术分野

在大型语言模型的训练过程中，奖励模型（Reward Model）正成为决定模型性能上限的关键变量。当我们深入分析这一领域的技术演进路径时，会发现两种截然不同的设计哲学正在形成竞争态势：结果奖励模型（Outcome Reward Model，ORM）和过程奖励模型（Process Reward Model，PRM）。这两种范式不仅在技术实现上存在差异，更体现了对智能体学习机制的不同理解。

ORM的核心特征在于其"终点裁判"的定位。它仅对生成内容的最终结果进行二元评判，这种设计源于传统的强化学习框架。在文本生成任务中，ORM会等待模型完成全部输出后，基于预设的标准（如事实准确性、语言流畅度或人类偏好）给出单一评分。这种方式的优势在于实现简单且计算开销较小，但缺陷同样明显：当模型生成长篇内容时，稀疏的反馈信号难以指导中间过程的优化，容易陷入"结果正确但过程错误"的困境。

相比之下，PRM采用了"过程教练"的定位。美团技术团队在VSRM（Verifiable Stepwise Reward Model）实践中发现，对推理链的每个步骤进行即时评估，可使模型在数学推理任务中的错误率降低40%。这种密集奖励机制模拟了人类教学中的分步指导，特别是在以下场景表现突出：