


概览
在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化。
- 配置:这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
- 推理与评估:在这个阶段,OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率。
- 可视化:评估完成后,OpenCompass 将结果整理成易读的表格,并将其保存为 CSV 和 TXT 文件。
接下来,我们将展示 OpenCompass 的基础用法,分别用命令行方式和配置文件的方式评测InternLM2-Chat-1.8B,展示书生浦语在 C-Eval 基准任务上的评估。更多评测技巧请查看 https://opencompass.readthedocs.io/zh-cn/latest/get_started/quick_start.html 文档。
在创建开发机界面选择镜像为 Cuda11.7-conda,并选择 GPU 为10% A100
安装——面向GPU的环境安装
conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
# 注意:一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf
数据准备
评测数据集
解压评测数据集到 /root/opencompass/data/ 处。(注意: 上方在git clone opencompass 时一定要将 opencompass clone 到 /root 路径下)
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/ unzip OpenCompassData-core-20231110.zip
将会在 OpenCompass 下看到data文件夹
InternLM和ceval 相关的配置文件
列出所有跟 InternLM 及 C-Eval 相关的配置
python tools/list_configs.py internlm ceval

启动评测 (10% A100 8GB 资源)
使用命令行配置参数法进行评测
打开 opencompass文件夹下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py ,贴入以下代码
from opencompass.models import HuggingFaceCausalLM
models = [
dict(
type=HuggingFaceCausalLM,
abbr='internlm2-1.8b-hf',
path="/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b",
tokenizer_path='/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b',
model_kwargs=dict(
trust_remote_code=True,
device_map='auto',
),
tokenizer_kwargs=dict(
padding_side='left',
truncation_side='left',
use_fast=False,
trust_remote_code=True,
),
max_out_len=100,
min_out_len=1,
max_seq_len=2048,
batch_size=8,
run_cfg=dict(num_gpus=1, num_procs=1),
)
]

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程,我们可以在第一次运行时以 --debug 模式启动评估,并检查是否存在问题。在 --debug 模式下,任务将按顺序执行,并实时打印输出。
#环境变量配置
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug
命令解析
python run.py
--datasets ceval_gen \ # 数据集准备
--models hf_internlm2_chat_1_8b \ # 模型准备
--debug
如果一切正常,您应该看到屏幕上显示:

评测结果 (运行4个小时 ) 哭脸

运行时间长 不妨先看一下 评测数据
实际上 通过很多步的传参 路径 path="./data/ceval/formal_ceval"

使用配置文件修改参数法进行评测
除了通过命令行配置实验外,OpenCompass 还允许用户在配置文件中编写实验的完整配置,并通过 run.py 直接运行它。配置文件是以 Python 格式组织的,并且必须包括 datasets 和 models 字段。本次测试配置在 configs文件夹 中。此配置通过 继承机制 引入所需的数据集和模型配置,并以所需格式组合 datasets 和 models 字段。 运行以下代码,在configs文件夹下创建eval_tutorial_demo.py
cd /root/opencompass/configs touch eval_tutorial_demo.py
打开eval_tutorial_demo.py 贴入以下代码
from mmengine.config import read_base
with read_base():
from .datasets.ceval.ceval_gen import ceval_datasets
from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models
datasets = ceval_datasets
models = hf_internlm2_chat_1_8b_models
因此,运行任务时,我们只需将配置文件的路径传递给 run.py:
cd /root/opencompass python run.py configs/eval_tutorial_demo.py --debug
如果一切正常,您应该看到屏幕上显示:

评测结果


进阶任务
- 使用 OpenCompass 进行主观评测(选做)
- 之前以为主观评测是用人评测(哭脸)
- 看文档主观评测指引 — OpenCompass 0.3.0 文档
https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/subjective_evaluation.html
主观评测旨在评估模型在符合人类偏好的能力上的表现。这种评估的黄金准则是人类喜好,但标注成本很高。
为了探究模型的主观能力,我们采用了JudgeLLM作为人类评估者的替代品(LLM-as-a-Judge)。流行的评估方法主要有:
-
Compare模式:将模型的回答进行两两比较,以计算对战其胜率。
-
Score模式:针对单模型的回答进行打分(例如:Chatbot Arena)。
我们基于以上方法支持了JudgeLLM用于模型的主观能力评估(目前opencompass仓库里支持的所有模型都可以直接作为JudgeLLM进行调用,此外一些专用的JudgeLLM我们也在计划支持中)。
目前已支持的主观评测数据集
-
AlignBench 中文Scoring数据集(https://github.com/THUDM/AlignBench)
-
MTBench 英文Scoring数据集,两轮对话(https://github.com/lm-sys/FastChat)
-
MTBench101 英文Scoring数据集,多轮对话(https://github.com/mtbench101/mt-bench-101)
-
AlpacaEvalv2 英文Compare数据集(https://github.com/tatsu-lab/alpaca_eval)
-
ArenaHard 英文Compare数据集,主要面向coding(https://github.com/lm-sys/arena-hard/tree/main)
-
Fofo 英文Socring数据集(https://github.com/SalesforceAIResearch/FoFo/)
-
Wildbench 英文Score和Compare数据集(https://github.com/allenai/WildBench)
2 启动主观评测
类似于已有的客观评测方式,可以在configs/eval_subjective.py中进行相关配置
运行以下代码,在configs文件夹下创建eval_subjective.py
opencompass/configs/eval_subjective_alignbench.py
打开eval_subjective.py 贴入以下代码

from mmengine.config import read_base
with read_base():
from .datasets.ceval.ceval_gen import ceval_datasets
from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models
datasets = ceval_datasets Alignbench
models = hf_internlm2_chat_1_8b_models 模型不变
设计 方案:
主观评测的具体流程如下:
-
评测数据集准备 使用AlignBench 中文Scoring数据集(https://github.com/THUDM/AlignBench)
-
使用API模型或者开源模型进行问题答案的推理 模型不变 internlm2_chat_1_8b_models
-
使用选定的评价模型(JudgeLLM)对模型输出进行评估
-
对评价模型返回的预测结果进行解析并计算数值指标
2.1数据准备
原文:
-
这一步需要准备好数据集文件以及在
Opencompass/datasets/subjective/下实现自己数据集的类,将读取到的数据以list of dict的格式return
克隆 源 获取数据 opencompass/data目录 创建文件夹subjective
cd data/subjective
git clone https://github.com/THUDM/AlignBench
为了方便,我将数据名改了一下 alignment_bench.jsonl

2.2 构建评测配置
以Alignbench为例configs/datasets/subjective/alignbench/alignbench_judgeby_critiquellm.py,
找到 -- 打开 -- 修改 -- 如图


-
首先需要设置
subjective_reader_cfg,用以接收从自定义的Dataset类里return回来的相关字段并指定保存文件时的output字段 -
然后需要指定数据集的根路径
data_path以及数据集的文件名subjective_all_sets,如果有多个子文件,在这个list里进行添加即可 -
指定
subjective_infer_cfg和subjective_eval_cfg,配置好相应的推理和评测的prompt -
最后在相应的位置指定
mode,summarizer等额外信息,注意,对于不同的主观数据集,所需指定的字段可能不尽相同。此外,相应数据集的summarizer类也需要自己实现以进行数据的统计,可以参考其他数据集的summarizer实现,位于opencompass/opencompass/summarizers/subjective
2.3 启动评测并输出评测结果
python run.py configs/eval_subjective.py -r
-r 参数支持复用模型推理和评估结果
JudgeLLM的评测回复会保存在 output/.../results/timestamp/xxmodel/xxdataset/.json 评测报告则会输出到 output/.../summary/timestamp/report.csv。
评估结果显示如下:
实际上 当打开时发现 一些文件 opencompass 已有 评估文件eval_subjective_alignbench.py
opencompass/configs/eval_subjective_alignbench.py
添加导入
from opencompass.models import hf_internlm2_chat_1_8b

将原先 chatglm3-6b-hf 相关路径 改为 internlm2-1.8b-hf , 在hf 找到模型 复制相对路径
opencompass/configs/models/hf_internlm/hf_internlm2_chat_1_8b.py

配置完成,输入命令, 启动评测,期待输出评测结果
python run.py configs/eval_subjective_alignbench.py -r
一共整了7小时多 ,最终一直报错 又哭
修改路径
data_path = "data/subjective/AlignBench/data/alignment_bench"
# data_path ="data/subjective/alignment_bench"
# alignment_bench_config_path = "data/subjective/alignment_bench/"
# opencompass/data/subjective/AlignBench/config
# alignment_bench_config_name = 'config/multi-dimension'
# opencompass/data/subjective/AlignBench/config/multi-dimension.json
# /root/opencompass/data/subjective/AlignBench/config
alignment_bench_config_path = "opencompass/data/subjective/AlignBench/config"
alignment_bench_config_name = 'dimension_definition'
subjective_datasets = []

文件找不到 又改了好多次 一直 是这两个报错 放弃
ps 可能是我哪里考虑失误 也可能是有bug
如果有好的想法 或 发现 原因 欢迎大家评论留言
选做二
- 使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能(选做)
多了一步 使用 LMDeploy部署
pip install lmdeploy
LMDeploy部署 评测 LMDeploy 模型 — OpenCompass 0.3.0 文档
-
如果评测 InternLM Chat 模型,请使用配置文件
eval_internlm_chat_turbomind.py
吸取经验 先找一下 评测文件 真有opencompass/configs/eval_internlm_chat_turbomind.py(方案1) opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py(方案2)
方案1
conda activate opencompass
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
python run.py configs/eval_internlm_chat_turbomind.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen
eval_internlm_chat_turbomind.py 文件修改如下:
from mmengine.config import read_base
from opencompass.models.turbomind import TurboMindModel
with read_base():
# choose a list of datasets
# from .datasets.mmlu.mmlu_gen_a484b3 import mmlu_datasets
from .datasets.ceval.ceval_gen_5f30c7 import ceval_datasets
# from .datasets.SuperGLUE_WiC.SuperGLUE_WiC_gen_d06864 import WiC_datasets
# from .datasets.SuperGLUE_WSC.SuperGLUE_WSC_gen_7902a7 import WSC_datasets
# from .datasets.triviaqa.triviaqa_gen_2121ce import triviaqa_datasets
# from .datasets.gsm8k.gsm8k_gen_1d7fe4 import gsm8k_datasets
# from .datasets.race.race_gen_69ee4f import race_datasets
# from .datasets.crowspairs.crowspairs_gen_381af0 import crowspairs_datasets
# and output the results in a choosen format
from .summarizers.medium import summarizer
datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])
internlm_meta_template = dict(round=[
dict(role='HUMAN', begin='<|User|>:', end='\n'),
dict(role='BOT', begin='<|Bot|>:', end='<eoa>\n', generate=True),
],
eos_token_id=103028)
internlm2_meta_template = dict(
round=[
dict(role='HUMAN', begin='<|im_start|>user\n', end='<|im_end|>\n'),
dict(role='BOT', begin='<|im_start|>assistant\n', end='<|im_end|>\n', generate=True),
],
eos_token_id=92542
)
# config for internlm2_chat_1_8b
internlm2_chat_1_8b = dict(
type=TurboMindModel,
abbr='internlm2_chat_1_8b-turbomind',
path='internlm/internlm2_chat_1_8b',
# api_addr='http://0.0.0.0:23333',
engine_config=dict(session_len=2048,
max_batch_size=32,
rope_scaling_factor=1.0),
gen_config=dict(top_k=1,
top_p=0.8,
temperature=1.0,
max_new_tokens=100),
max_out_len=100,
max_seq_len=2048,
batch_size=32,
concurrency=32,
# meta_template=meta_template,
meta_template=internlm_meta_template,
run_cfg=dict(num_gpus=1, num_procs=1),
end_str='<eoa>',
)
models = [internlm2_chat_1_8b]
# config for internlm-chat-7b
# internlm_chat_7b = dict(
# type=TurboMindModel,
# abbr='internlm-chat-7b-turbomind',
# path='internlm/internlm-chat-7b',
# engine_config=dict(session_len=2048,
# max_batch_size=32,
# rope_scaling_factor=1.0),
# gen_config=dict(top_k=1,
# top_p=0.8,
# temperature=1.0,
# max_new_tokens=100),
# max_out_len=100,
# max_seq_len=2048,
# batch_size=32,
# concurrency=32,
# meta_template=internlm_meta_template,
# run_cfg=dict(num_gpus=1, num_procs=1),
# end_str='<eoa>',
# )
# # config for internlm-chat-7b
# internlm2_chat_7b = dict(
# type=TurboMindModel,
# abbr='internlm2-chat-7b-turbomind',
# path='internlm/internlm2-chat-7b',
# engine_config=dict(session_len=2048,
# max_batch_size=32,
# rope_scaling_factor=1.0),
# gen_config=dict(top_k=1,
# top_p=0.8,
# temperature=1.0,
# max_new_tokens=100),
# max_out_len=100,
# max_seq_len=2048,
# batch_size=32,
# concurrency=32,
# meta_template=internlm2_meta_template,
# run_cfg=dict(num_gpus=1, num_procs=1),
# end_str='<|im_end|>'
# )
# # config for internlm-chat-20b
# internlm_chat_20b = dict(
# type=TurboMindModel,
# abbr='internlm-chat-20b-turbomind',
# path='internlm/internlm-chat-20b',
# engine_config=dict(session_len=2048,
# max_batch_size=8,
# rope_scaling_factor=1.0),
# gen_config=dict(top_k=1,
# top_p=0.8,
# temperature=1.0,
# max_new_tokens=100),
# max_out_len=100,
# max_seq_len=2048,
# batch_size=8,
# concurrency=8,
# meta_template=internlm_meta_template,
# run_cfg=dict(num_gpus=1, num_procs=1),
# end_str='<eoa>',
# )
# models = [internlm_chat_20b]
运行结果

方案2

比葫芦画瓢 写 注释多余数据集 其他模型 eval_internlm_chat_lmdeploy_apiserver.py修改如下:
from mmengine.config import read_base
from opencompass.models.turbomind_api import TurboMindAPIModel
with read_base():
# choose a list of datasets
# from .datasets.mmlu.mmlu_gen_a484b3 import mmlu_datasets
from .datasets.ceval.ceval_gen_5f30c7 import ceval_datasets ##
# from .datasets.SuperGLUE_WiC.SuperGLUE_WiC_gen_d06864 import WiC_datasets
# from .datasets.SuperGLUE_WSC.SuperGLUE_WSC_gen_7902a7 import WSC_datasets
# from .datasets.triviaqa.triviaqa_gen_2121ce import triviaqa_datasets
# from .datasets.gsm8k.gsm8k_gen_1d7fe4 import gsm8k_datasets
# from .datasets.race.race_gen_69ee4f import race_datasets
# from .datasets.crowspairs.crowspairs_gen_381af0 import crowspairs_datasets
# and output the results in a choosen format
from .summarizers.medium import summarizer
# from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models
datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])
meta_template = dict(
round=[
dict(role='HUMAN', begin='<|User|>:', end='\n'),
dict(role='BOT', begin='<|Bot|>:', end='<eoa>\n', generate=True),
],
eos_token_id=103028)
# internlm_chat_20b = dict(
# type=TurboMindAPIModel,
# abbr='internlm-chat-20b-turbomind',
# api_addr='http://0.0.0.0:23333',
# max_out_len=100,
# max_seq_len=2048,
# batch_size=8,
# meta_template=meta_template,
# run_cfg=dict(num_gpus=1, num_procs=1),
# end_str='<eoa>',
# )
# internlm_chat_7b = dict(
# type=TurboMindAPIModel,
# abbr='internlm-chat-7b-turbomind',
# api_addr='http://0.0.0.0:23333',
# max_out_len=100,
# max_seq_len=2048,
# batch_size=16,
# meta_template=meta_template,
# run_cfg=dict(num_gpus=1, num_procs=1),
# end_str='<eoa>',
# )
internlm2_chat_1_8b = dict(
type=TurboMindAPIModel,
abbr='internlm2_chat_1_8b-turbomind',
api_addr='http://0.0.0.0:23333',
max_out_len=100,
max_seq_len=2048,
batch_size=8,
meta_template=meta_template,
run_cfg=dict(num_gpus=1, num_procs=1),
end_str='<eoa>',
)
models = [internlm2_chat_1_8b]
# models = [internlm_chat_20b]
启动api服务
conda activate opencompass
CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --server-port 23333

conda activate opencompass
cd opencompass
export MKL_SERVICE_FORCE_INTEL=1 ## 参考大佬作业
python run.py configs/eval_internlm_chat_lmdeploy_apiserver.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen
报错 修改依然报错 玩游戏去

再次运行
终端一
终端二

what 分来

参考大佬作业 感谢
export MKL_SERVICE_FORCE_INTEL=1
MKL_SERVICE_FORCE_INTEL=1
结果


-
使用 OpenCompass 进行调用API评测(优秀学员必做)
拥有经验 先找一下 评测文件 opencompass/configs/api_examples 下有许多模型的列子
这些模型 需要api key

新建文件夹 eval_api_internlm2_chat_1_8b.py
from mmengine.config import read_base
from opencompass.models import ERNIEBot
from opencompass.partitioners import NaivePartitioner
from opencompass.runners.local_api import LocalAPIRunner
from opencompass.tasks import OpenICLInferTask
with read_base():
from ..summarizers.medium import summarizer
from ..datasets.ceval.ceval_gen import ceval_datasets
datasets = [
*ceval_datasets,
]
models = [
dict(
abbr='internlm2_chat_1_8b',
type=TurboMindAPIModel,
path='internlm2_chat_1_8b',
# key='xxxxxx', # please give you key
# secretkey='xxxxxxxxx', # please give your group_id
url='http://0.0.0.0:23333/v1',
api_key='YOUR_API_KEY', # 替换为你的OpenAI API密钥,由于我们使用的本地API,无需密钥,任意填写即可
generation_kwargs = {
'temperature': 0.8,
},
query_per_second=1,
max_out_len=2048,
max_seq_len=2048,
batch_size=8
),
]
infer = dict(
partitioner=dict(type=NaivePartitioner),
runner=dict(
type=LocalAPIRunner,
max_num_workers=2,
concurrent_users=2,
task=dict(type=OpenICLInferTask)),
)
work_dir = "outputs/api_internlm2_chat_1_8b/"
借鉴于此文件
# 导入openai模块中的OpenAI类,这个类用于与OpenAI API进行交互
from openai import OpenAI
# 创建一个OpenAI的客户端实例,需要传入API密钥和API的基础URL
client = OpenAI(
api_key='YOUR_API_KEY',
# 替换为你的OpenAI API密钥,由于我们使用的本地API,无需密钥,任意填写即可
base_url="http://0.0.0.0:23333/v1"
# 指定API的基础URL,这里使用了本地地址和端口
)
# 调用client.models.list()方法获取所有可用的模型,并选择第一个模型的ID
# models.list()返回一个模型列表,每个模型都有一个id属性
model_name = client.models.list().data[0].id
# 使用client.chat.completions.create()方法创建一个聊天补全请求
# 这个方法需要传入多个参数来指定请求的细节
response = client.chat.completions.create(
model=model_name,
# 指定要使用的模型ID
messages=[
# 定义消息列表,列表中的每个字典代表一个消息
{"role": "system", "content": "你是一个友好的小助手,负责解决问题."},
# 系统消息,定义助手的行为
{"role": "user", "content": "帮我讲述一个关于狐狸和西瓜的小故事"},
# 用户消息,询问时间管理的建议
],
temperature=0.8,
# 控制生成文本的随机性,值越高生成的文本越随机
top_p=0.8
# 控制生成文本的多样性,值越高生成的文本越多样
)
# 打印出API的响应结果
print(response.choices[0].message.content)
启动api服务
conda activate opencompass
lmdeploy serve api_server \
/root/models/internlm2_5-7b-chat-w4a16-4bit \
--model-format awq \
--cache-max-entry-count 0.4 \
--quant-policy 4 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1

新建终端
conda activate opencompass
cd opencompass
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
python run.py configs/api_examples/eval_api_internlm2_chat_1_8b.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen



完
一直没有分 纳闷 两天两夜。。。。。
小结: 通过本次【评测实战】,充分了解评测流程 配置 -> 推理 -> 评估 -> 可视化,实战了主观评测,LMDeploy部署后用 OpenCompass 评测 InternLM2-Chat-1.8B 模型,以及调用API评测
尽管最终都没有的出分 哭脸, 然从小白到熟练评测配置,仍有意义。
鸣谢: 大佬
 基础岛 第6关 OpenCompass 评测 InternLM-1.8B 实践&spm=1001.2101.3001.5002&articleId=141298761&d=1&t=3&u=ad08b448e1f84dffb59e4294924eacb4)
1119

被折叠的 条评论
为什么被折叠?



