大模型评估指标

原创已于 2026-05-15 12:52:07 修改 · 188 阅读

·

5

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#transformer

于 2026-05-15 12:47:29 首次发布

大模型专栏收录该内容

39 篇文章

订阅专栏

大模型各阶段指标对应关系（明确：偏好对齐指标仅微调后有）

核心结论

偏好对齐类指标（WinRate、人类偏好分、拒绝率等）并非原生自带，仅在经过 SFT、DPO 微调后才会出现、才需要评估；预训练原生底座无此类指标，测之无意义。

一、预训练底座（无微调，原生状态）

核心能力

仅具备基础语言、知识能力，不会跟随指令、不懂人类偏好，仅能完成基础续写。

唯一需测指标（无偏好对齐相关）

基础生成质量：Perplexity（PPL，困惑度）、Repetition Rate（重复率）
文本匹配：BLEU、ROUGE-L、BERTScore
基础能力：知识覆盖率、基础逻辑推理正确率、语言流畅度

二、SFT 有监督微调后（首次对齐人类指令）

核心能力

学会跟随指令、按问答格式输出，初步贴合人类对话习惯，摆脱原生续写模式。

新增需测指标（初步偏好相关，非核心）

指令对齐：指令跟随率、约束遵守率（格式、字数等）
基础偏好：回答流畅自然度、对话连贯性、基础回答质量（不啰嗦、不跑偏）
保留基础指标：延续预训练阶段所有基础指标（验证能力无丢失）

三、DPO 偏好对齐微调后（重点优化人类偏好）

核心能力

明确区分回答好坏、贴合人类偏好，具备安全边界、减少幻觉，优化话术分寸。

新增专属偏好对齐指标（核心重点）

偏好对比：WinRate（对局胜率，DPO vs SFT）、人类偏好分
安全对齐：拒绝率（违规请求）、幻觉率、Toxicity（有害内容毒性值）
话术优化：简洁度、冗余度、回答一致性（同问题不矛盾）
保留指标：延续 SFT 阶段所有指标（验证指令能力无丢失）

四、各阶段指标对比表

模型阶段	核心能力	重点评估指标	有无偏好对齐指标
预训练底座	基础语言、知识续写	PPL、BLEU、ROUGE、知识覆盖率、基础推理	无
SFT 微调	指令跟随、基础对话	指令跟随率、流畅度、连贯性、基础指标	有（初步，非核心）
DPO 微调	偏好对齐、安全合规	WinRate、人类偏好分、拒绝率、幻觉率、简洁度	有（核心，专属）

补充说明

偏好对齐指标的核心是「贴合人类需求」，原生底座无此训练目标，因此无对应能力、无需评估；
SFT 是偏好对齐的基础（让模型“听话”），DPO 是偏好对齐的核心（让模型“好听、安全”）；
评估逻辑：从底座→SFT→DPO，逐步新增偏好、安全类指标，同时验证基础能力不丢失。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。