大模型评估指标

大模型各阶段指标对应关系(明确:偏好对齐指标仅微调后有)

核心结论

偏好对齐类指标(WinRate、人类偏好分、拒绝率等)并非原生自带,仅在经过 SFT、DPO 微调后才会出现、才需要评估;预训练原生底座无此类指标,测之无意义。

一、预训练底座(无微调,原生状态)

核心能力

仅具备基础语言、知识能力,不会跟随指令、不懂人类偏好,仅能完成基础续写。

唯一需测指标(无偏好对齐相关)

  1. 基础生成质量:Perplexity(PPL,困惑度)、Repetition Rate(重复率)
  2. 文本匹配:BLEU、ROUGE-L、BERTScore
  3. 基础能力:知识覆盖率、基础逻辑推理正确率、语言流畅度

二、SFT 有监督微调后(首次对齐人类指令)

核心能力

学会跟随指令、按问答格式输出,初步贴合人类对话习惯,摆脱原生续写模式。

新增需测指标(初步偏好相关,非核心)

  1. 指令对齐:指令跟随率、约束遵守率(格式、字数等)
  2. 基础偏好:回答流畅自然度、对话连贯性、基础回答质量(不啰嗦、不跑偏)
  3. 保留基础指标:延续预训练阶段所有基础指标(验证能力无丢失)

三、DPO 偏好对齐微调后(重点优化人类偏好)

核心能力

明确区分回答好坏、贴合人类偏好,具备安全边界、减少幻觉,优化话术分寸。

新增专属偏好对齐指标(核心重点)

  1. 偏好对比:WinRate(对局胜率,DPO vs SFT)、人类偏好分
  2. 安全对齐:拒绝率(违规请求)、幻觉率、Toxicity(有害内容毒性值)
  3. 话术优化:简洁度、冗余度、回答一致性(同问题不矛盾)
  4. 保留指标:延续 SFT 阶段所有指标(验证指令能力无丢失)

四、各阶段指标对比表

模型阶段核心能力重点评估指标有无偏好对齐指标
预训练底座基础语言、知识续写PPL、BLEU、ROUGE、知识覆盖率、基础推理
SFT 微调指令跟随、基础对话指令跟随率、流畅度、连贯性、基础指标有(初步,非核心)
DPO 微调偏好对齐、安全合规WinRate、人类偏好分、拒绝率、幻觉率、简洁度有(核心,专属)

补充说明

  1. 偏好对齐指标的核心是「贴合人类需求」,原生底座无此训练目标,因此无对应能力、无需评估;
  2. SFT 是偏好对齐的基础(让模型“听话”),DPO 是偏好对齐的核心(让模型“好听、安全”);
  3. 评估逻辑:从底座→SFT→DPO,逐步新增偏好、安全类指标,同时验证基础能力不丢失。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值