一、先讲透:SFT 解决不了的致命问题
SFT 只是模仿标准答案,只能做到:
- 会跟指令
- 格式规范
- 照着优质样本复述
但 SFT 天生有三大解决不了的短板:
-
只会学对的,不知道什么是错的
只喂好样本,没见过坏回答,遇到陌生问题容易幻觉、瞎编。 -
没有人类偏好
同样一个问题,有很多种正确答案;
SFT 只会平均化模仿,不会选更得体、更简洁、更符合人类口味的那一种。 -
容易讨好式乱答、不懂拒绝
恶意提问、越界请求,SFT s 很容易顺着回答,没有价值观、不会拒绝。
二、DPO 专门补 SFT 的坑
DPO 核心逻辑:
给模型同一个问题 + 好回答 + 坏回答,让模型:
- 拉高好回答概率
- 压低坏回答概率
DPO 能解决的事
-
学会分辨对错
明确知道哪种回答是劣质、幻觉、啰嗦、违规,主动避开。 -
对齐人类偏好
同样正确的话,学会选:更简洁、逻辑更顺、语气更自然、更专业的版本。 -
价值观与安全对齐
学会拒绝敏感请求、不编造事实、态度更克制。 -
替代复杂的 RLHF(PPO)
传统PPO要:训奖励模型 + 复杂强化学习,成本高、易训崩。
DPO 不用奖励模型、不用PPO,直接用偏好对就能完成对齐,成本低、效果接近PPO。
三、一句话总结必要性
- SFT 让模型「会说话、听指令」
- DPO 让模型「会好好说话、不说错话、懂分寸、合人心意」
只有SFT:像一个只会照本宣科的实习生;
加上DPO:才变成有判断力、有分寸、懂偏好、少幻觉的成熟模型。
四、工业标准顺序(为什么缺一不可)
预训练底座 → SFT(学会听话) → DPO(学会择优+守规矩)
SFT 是下限,保证不跑偏;
DPO 是上限,提升质感、安全性、偏好、真实性。

1147

被折叠的 条评论
为什么被折叠?



