为什么有了SFT，还需要DPO？

原创于 2026-05-15 11:40:54 发布 · 39 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#transformer

大模型专栏收录该内容

39 篇文章

订阅专栏

一、先讲透：SFT 解决不了的致命问题

SFT 只是模仿标准答案，只能做到：

会跟指令
格式规范
照着优质样本复述

但 SFT 天生有三大解决不了的短板：

只会学对的，不知道什么是错的
只喂好样本，没见过坏回答，遇到陌生问题容易幻觉、瞎编。
没有人类偏好
同样一个问题，有很多种正确答案；
SFT 只会平均化模仿，不会选更得体、更简洁、更符合人类口味的那一种。
容易讨好式乱答、不懂拒绝
恶意提问、越界请求，SFT s 很容易顺着回答，没有价值观、不会拒绝。

二、DPO 专门补 SFT 的坑

DPO 核心逻辑：
给模型同一个问题 + 好回答 + 坏回答，让模型：

拉高好回答概率
压低坏回答概率

DPO 能解决的事

学会分辨对错
明确知道哪种回答是劣质、幻觉、啰嗦、违规，主动避开。
对齐人类偏好
同样正确的话，学会选：更简洁、逻辑更顺、语气更自然、更专业的版本。
价值观与安全对齐
学会拒绝敏感请求、不编造事实、态度更克制。
替代复杂的 RLHF(PPO)
传统PPO要：训奖励模型 + 复杂强化学习，成本高、易训崩。
DPO 不用奖励模型、不用PPO，直接用偏好对就能完成对齐，成本低、效果接近PPO。

三、一句话总结必要性

SFT 让模型「会说话、听指令」
DPO 让模型「会好好说话、不说错话、懂分寸、合人心意」

只有SFT：像一个只会照本宣科的实习生；
加上DPO：才变成有判断力、有分寸、懂偏好、少幻觉的成熟模型。

四、工业标准顺序（为什么缺一不可）

预训练底座 → SFT（学会听话） → DPO（学会择优+守规矩）
SFT 是下限，保证不跑偏；
DPO 是上限，提升质感、安全性、偏好、真实性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。