书生·浦语大模型实战营（第三期）基础岛第6关 OpenCompass 评测 InternLM-1.8B 实践

原创已于 2024-08-21 18:38:37 修改 · 1.6k 阅读

30 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AI编程 #ai #人工智能

于 2024-08-21 18:08:41 首次发布

概览

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。

接下来，我们将展示 OpenCompass 的基础用法，分别用命令行方式和配置文件的方式评测InternLM2-Chat-1.8B，展示书生浦语在 C-Eval 基准任务上的评估。更多评测技巧请查看 https://opencompass.readthedocs.io/zh-cn/latest/get_started/quick_start.html 文档。

在创建开发机界面选择镜像为 Cuda11.7-conda，并选择 GPU 为10% A100

安装——面向GPU的环境安装

conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y

# 注意：一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .


apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf

数据准备

评测数据集

解压评测数据集到 /root/opencompass/data/ 处。（注意：上方在git clone opencompass 时一定要将 opencompass clone 到 /root 路径下）

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

将会在 OpenCompass 下看到data文件夹

InternLM和ceval 相关的配置文件

列出所有跟 InternLM 及 C-Eval 相关的配置

python tools/list_configs.py internlm ceval

启动评测 (10% A100 8GB 资源)

使用命令行配置参数法进行评测

打开 opencompass文件夹下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py ,贴入以下代码

from opencompass.models import HuggingFaceCausalLM


models = [
    dict(
        type=HuggingFaceCausalLM,
        abbr='internlm2-1.8b-hf',
        path="/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b",
        tokenizer_path='/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b',
        model_kwargs=dict(
            trust_remote_code=True,
            device_map='auto',
        ),
        tokenizer_kwargs=dict(
            padding_side='left',
            truncation_side='left',
            use_fast=False,
            trust_remote_code=True,
        ),
        max_out_len=100,
        min_out_len=1,
        max_seq_len=2048,
        batch_size=8,
        run_cfg=dict(num_gpus=1, num_procs=1),
    )
]

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。在 --debug 模式下，任务将按顺序执行，并实时打印输出。

#环境变量配置
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

命令解析

python run.py
--datasets ceval_gen \ # 数据集准备
--models hf_internlm2_chat_1_8b \  # 模型准备
--debug

如果一切正常，您应该看到屏幕上显示：

评测结果（运行4个小时）哭脸

运行时间长不妨先看一下评测数据

实际上通过很多步的传参路径 path="./data/ceval/formal_ceval"

使用配置文件修改参数法进行评测

除了通过命令行配置实验外，OpenCompass 还允许用户在配置文件中编写实验的完整配置，并通过 run.py 直接运行它。配置文件是以 Python 格式组织的，并且必须包括 datasets 和 models 字段。本次测试配置在 configs文件夹中。此配置通过继承机制引入所需的数据集和模型配置，并以所需格式组合 datasets 和 models 字段。运行以下代码，在configs文件夹下创建eval_tutorial_demo.py

cd /root/opencompass/configs
touch eval_tutorial_demo.py

打开eval_tutorial_demo.py 贴入以下代码

from mmengine.config import read_base

with read_base():
    from .datasets.ceval.ceval_gen import ceval_datasets
    from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models

datasets = ceval_datasets
models = hf_internlm2_chat_1_8b_models

因此，运行任务时，我们只需将配置文件的路径传递给 run.py：

cd /root/opencompass
python run.py configs/eval_tutorial_demo.py --debug

如果一切正常，您应该看到屏幕上显示：

评测结果

进阶任务

使用 OpenCompass 进行主观评测（选做）
之前以为主观评测是用人评测（哭脸）
看文档主观评测指引 — OpenCompass 0.3.0 文档https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/subjective_evaluation.html

主观评测旨在评估模型在符合人类偏好的能力上的表现。这种评估的黄金准则是人类喜好，但标注成本很高。

为了探究模型的主观能力，我们采用了JudgeLLM作为人类评估者的替代品（LLM-as-a-Judge）。流行的评估方法主要有:

Compare模式：将模型的回答进行两两比较，以计算对战其胜率。
Score模式：针对单模型的回答进行打分（例如：Chatbot Arena）。

我们基于以上方法支持了JudgeLLM用于模型的主观能力评估（目前opencompass仓库里支持的所有模型都可以直接作为JudgeLLM进行调用，此外一些专用的JudgeLLM我们也在计划支持中）。

目前已支持的主观评测数据集

AlignBench 中文Scoring数据集（https://github.com/THUDM/AlignBench）
MTBench 英文Scoring数据集，两轮对话（https://github.com/lm-sys/FastChat）
MTBench101 英文Scoring数据集，多轮对话（https://github.com/mtbench101/mt-bench-101）
AlpacaEvalv2 英文Compare数据集（https://github.com/tatsu-lab/alpaca_eval）
ArenaHard 英文Compare数据集，主要面向coding(https://github.com/lm-sys/arena-hard/tree/main)
Fofo 英文Socring数据集（https://github.com/SalesforceAIResearch/FoFo/）
Wildbench 英文Score和Compare数据集（https://github.com/allenai/WildBench）

2 启动主观评测

类似于已有的客观评测方式，可以在configs/eval_subjective.py中进行相关配置

运行以下代码，在configs文件夹下创建eval_subjective.py

opencompass/configs/eval_subjective_alignbench.py

打开eval_subjective.py 贴入以下代码

from mmengine.config import read_base

with read_base():
    from .datasets.ceval.ceval_gen import ceval_datasets
    from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models

datasets = ceval_datasets      Alignbench
models = hf_internlm2_chat_1_8b_models  模型不变

设计方案：

主观评测的具体流程如下:

评测数据集准备使用AlignBench 中文Scoring数据集（https://github.com/THUDM/AlignBench）
使用API模型或者开源模型进行问题答案的推理模型不变 internlm2_chat_1_8b_models
使用选定的评价模型(JudgeLLM)对模型输出进行评估
对评价模型返回的预测结果进行解析并计算数值指标

2.1数据准备

原文：

这一步需要准备好数据集文件以及在Opencompass/datasets/subjective/下实现自己数据集的类，将读取到的数据以list of dict的格式return

克隆源获取数据 opencompass/data目录创建文件夹subjective

cd data/subjective

git clone https://github.com/THUDM/AlignBench

为了方便，我将数据名改了一下 alignment_bench.jsonl

2.2 构建评测配置

以Alignbench为例configs/datasets/subjective/alignbench/alignbench_judgeby_critiquellm.py，

找到 -- 打开 -- 修改 -- 如图

首先需要设置subjective_reader_cfg，用以接收从自定义的Dataset类里return回来的相关字段并指定保存文件时的output字段
然后需要指定数据集的根路径data_path以及数据集的文件名subjective_all_sets，如果有多个子文件，在这个list里进行添加即可
指定subjective_infer_cfg和subjective_eval_cfg，配置好相应的推理和评测的prompt
最后在相应的位置指定mode，summarizer等额外信息，注意，对于不同的主观数据集，所需指定的字段可能不尽相同。此外，相应数据集的summarizer类也需要自己实现以进行数据的统计，可以参考其他数据集的summarizer实现，位于opencompass/opencompass/summarizers/subjective

2.3 启动评测并输出评测结果

python run.py configs/eval_subjective.py -r

-r 参数支持复用模型推理和评估结果

JudgeLLM的评测回复会保存在 output/.../results/timestamp/xxmodel/xxdataset/.json 评测报告则会输出到 output/.../summary/timestamp/report.csv。

评估结果显示如下：

实际上当打开时发现一些文件 opencompass 已有评估文件eval_subjective_alignbench.py

opencompass/configs/eval_subjective_alignbench.py

添加导入

from opencompass.models import hf_internlm2_chat_1_8b

将原先 chatglm3-6b-hf 相关路径改为 internlm2-1.8b-hf ，在hf 找到模型复制相对路径

opencompass/configs/models/hf_internlm/hf_internlm2_chat_1_8b.py

配置完成，输入命令，启动评测，期待输出评测结果

python run.py configs/eval_subjective_alignbench.py -r

一共整了7小时多，最终一直报错又哭

修改路径

data_path = "data/subjective/AlignBench/data/alignment_bench"

# data_path ="data/subjective/alignment_bench"

# alignment_bench_config_path = "data/subjective/alignment_bench/"

# opencompass/data/subjective/AlignBench/config

# alignment_bench_config_name = 'config/multi-dimension'

# opencompass/data/subjective/AlignBench/config/multi-dimension.json

# /root/opencompass/data/subjective/AlignBench/config

alignment_bench_config_path = "opencompass/data/subjective/AlignBench/config"

alignment_bench_config_name = 'dimension_definition'

subjective_datasets = []

文件找不到又改了好多次一直是这两个报错放弃

ps 可能是我哪里考虑失误也可能是有bug

如果有好的想法或发现原因欢迎大家评论留言

选做二

使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能（选做）

多了一步使用 LMDeploy部署

pip install lmdeploy

LMDeploy部署评测 LMDeploy 模型 — OpenCompass 0.3.0 文档

如果评测 InternLM Chat 模型，请使用配置文件 eval_internlm_chat_turbomind.py

吸取经验先找一下评测文件真有opencompass/configs/eval_internlm_chat_turbomind.py（方案1） opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py(方案2)

方案1

conda activate opencompass

export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

python run.py configs/eval_internlm_chat_turbomind.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen

eval_internlm_chat_turbomind.py 文件修改如下：

from mmengine.config import read_base
from opencompass.models.turbomind import TurboMindModel

with read_base():
    # choose a list of datasets
    # from .datasets.mmlu.mmlu_gen_a484b3 import mmlu_datasets
    from .datasets.ceval.ceval_gen_5f30c7 import ceval_datasets
    # from .datasets.SuperGLUE_WiC.SuperGLUE_WiC_gen_d06864 import WiC_datasets
    # from .datasets.SuperGLUE_WSC.SuperGLUE_WSC_gen_7902a7 import WSC_datasets
    # from .datasets.triviaqa.triviaqa_gen_2121ce import triviaqa_datasets
    # from .datasets.gsm8k.gsm8k_gen_1d7fe4 import gsm8k_datasets
    # from .datasets.race.race_gen_69ee4f import race_datasets
    # from .datasets.crowspairs.crowspairs_gen_381af0 import crowspairs_datasets
    # and output the results in a choosen format
    from .summarizers.medium import summarizer


datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])

internlm_meta_template = dict(round=[
    dict(role='HUMAN', begin='<|User|>:', end='\n'),
    dict(role='BOT', begin='<|Bot|>:', end='<eoa>\n', generate=True),
],
eos_token_id=103028)

internlm2_meta_template = dict(
    round=[
        dict(role='HUMAN', begin='<|im_start|>user\n', end='<|im_end|>\n'),
        dict(role='BOT', begin='<|im_start|>assistant\n', end='<|im_end|>\n', generate=True),
    ],
    eos_token_id=92542
)
# config for internlm2_chat_1_8b
internlm2_chat_1_8b = dict(
    type=TurboMindModel,
    abbr='internlm2_chat_1_8b-turbomind',
    path='internlm/internlm2_chat_1_8b',
    # api_addr='http://0.0.0.0:23333',
    engine_config=dict(session_len=2048,
                       max_batch_size=32,
                       rope_scaling_factor=1.0),
    gen_config=dict(top_k=1,
                    top_p=0.8,
                    temperature=1.0,
                    max_new_tokens=100),
    max_out_len=100,
    max_seq_len=2048,
    batch_size=32,
    concurrency=32,
    # meta_template=meta_template,
    meta_template=internlm_meta_template,
    run_cfg=dict(num_gpus=1, num_procs=1),
    end_str='<eoa>',
)

models = [internlm2_chat_1_8b]

# config for internlm-chat-7b
# internlm_chat_7b = dict(
#     type=TurboMindModel,
#     abbr='internlm-chat-7b-turbomind',
#     path='internlm/internlm-chat-7b',
#     engine_config=dict(session_len=2048,
#                        max_batch_size=32,
#                        rope_scaling_factor=1.0),
#     gen_config=dict(top_k=1,
#                     top_p=0.8,
#                     temperature=1.0,
#                     max_new_tokens=100),
#     max_out_len=100,
#     max_seq_len=2048,
#     batch_size=32,
#     concurrency=32,
#     meta_template=internlm_meta_template,
#     run_cfg=dict(num_gpus=1, num_procs=1),
#     end_str='<eoa>',
# )

# # config for internlm-chat-7b
# internlm2_chat_7b = dict(
#     type=TurboMindModel,
#     abbr='internlm2-chat-7b-turbomind',
#     path='internlm/internlm2-chat-7b',
#     engine_config=dict(session_len=2048,
#                        max_batch_size=32,
#                        rope_scaling_factor=1.0),
#     gen_config=dict(top_k=1,
#                     top_p=0.8,
#                     temperature=1.0,
#                     max_new_tokens=100),
#     max_out_len=100,
#     max_seq_len=2048,
#     batch_size=32,
#     concurrency=32,
#     meta_template=internlm2_meta_template,
#     run_cfg=dict(num_gpus=1, num_procs=1),
#     end_str='<|im_end|>'
# )

# # config for internlm-chat-20b
# internlm_chat_20b = dict(
#     type=TurboMindModel,
#     abbr='internlm-chat-20b-turbomind',
#     path='internlm/internlm-chat-20b',
#     engine_config=dict(session_len=2048,
#                        max_batch_size=8,
#                        rope_scaling_factor=1.0),
#     gen_config=dict(top_k=1,
#                     top_p=0.8,
#                     temperature=1.0,
#                     max_new_tokens=100),
#     max_out_len=100,
#     max_seq_len=2048,
#     batch_size=8,
#     concurrency=8,
#     meta_template=internlm_meta_template,
#     run_cfg=dict(num_gpus=1, num_procs=1),
#     end_str='<eoa>',
# )

# models = [internlm_chat_20b]

运行结果

方案2

比葫芦画瓢写注释多余数据集其他模型 eval_internlm_chat_lmdeploy_apiserver.py修改如下：

from mmengine.config import read_base
from opencompass.models.turbomind_api import TurboMindAPIModel

with read_base():
    # choose a list of datasets
    # from .datasets.mmlu.mmlu_gen_a484b3 import mmlu_datasets
    from .datasets.ceval.ceval_gen_5f30c7 import ceval_datasets     ##
    # from .datasets.SuperGLUE_WiC.SuperGLUE_WiC_gen_d06864 import WiC_datasets
    # from .datasets.SuperGLUE_WSC.SuperGLUE_WSC_gen_7902a7 import WSC_datasets
    # from .datasets.triviaqa.triviaqa_gen_2121ce import triviaqa_datasets
    # from .datasets.gsm8k.gsm8k_gen_1d7fe4 import gsm8k_datasets
    # from .datasets.race.race_gen_69ee4f import race_datasets
    # from .datasets.crowspairs.crowspairs_gen_381af0 import crowspairs_datasets
    # and output the results in a choosen format
    from .summarizers.medium import summarizer
    # from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models

datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])


meta_template = dict(
    round=[
        dict(role='HUMAN', begin='<|User|>:', end='\n'),
        dict(role='BOT', begin='<|Bot|>:', end='<eoa>\n', generate=True),
    ],
    eos_token_id=103028)

# internlm_chat_20b = dict(
#     type=TurboMindAPIModel,
#     abbr='internlm-chat-20b-turbomind',
#     api_addr='http://0.0.0.0:23333',
#     max_out_len=100,
#     max_seq_len=2048,
#     batch_size=8,
#     meta_template=meta_template,
#     run_cfg=dict(num_gpus=1, num_procs=1),
#     end_str='<eoa>',
# )

# internlm_chat_7b = dict(
#     type=TurboMindAPIModel,
#     abbr='internlm-chat-7b-turbomind',
#     api_addr='http://0.0.0.0:23333',
#     max_out_len=100,
#     max_seq_len=2048,
#     batch_size=16,
#     meta_template=meta_template,
#     run_cfg=dict(num_gpus=1, num_procs=1),
#     end_str='<eoa>',
# )

internlm2_chat_1_8b = dict(
    type=TurboMindAPIModel,

    abbr='internlm2_chat_1_8b-turbomind',
    
    api_addr='http://0.0.0.0:23333',
    max_out_len=100,
    max_seq_len=2048,
    batch_size=8,
    meta_template=meta_template,
    run_cfg=dict(num_gpus=1, num_procs=1),
    end_str='<eoa>',
)

models = [internlm2_chat_1_8b]
# models = [internlm_chat_20b]

启动api服务

conda activate opencompass 
CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --server-port 23333

conda activate opencompass 
cd opencompass
export MKL_SERVICE_FORCE_INTEL=1  ## 参考大佬作业
python run.py configs/eval_internlm_chat_lmdeploy_apiserver.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen

报错修改依然报错玩游戏去

再次运行

终端一

终端二

what 分来

参考大佬作业感谢

‬⁠‌⁠‌‍⁠‌⁠‌‬‍‬⁠⁠‌‌‍‍‬‍浦语Camp3:基础6-OpenCompass 评测 InternLM-1.8B 实践 - 飞书云文档 (feishu.cn)

export MKL_SERVICE_FORCE_INTEL=1

MKL_SERVICE_FORCE_INTEL=1

结果

使用 OpenCompass 进行调用API评测（优秀学员必做）

拥有经验先找一下评测文件 opencompass/configs/api_examples 下有许多模型的列子

这些模型需要api key

新建文件夹 eval_api_internlm2_chat_1_8b.py

from mmengine.config import read_base
from opencompass.models import ERNIEBot
from opencompass.partitioners import NaivePartitioner
from opencompass.runners.local_api import LocalAPIRunner
from opencompass.tasks import OpenICLInferTask

with read_base():
    from ..summarizers.medium import summarizer
    from ..datasets.ceval.ceval_gen import ceval_datasets

datasets = [
    *ceval_datasets,
]

models = [
    dict(
        abbr='internlm2_chat_1_8b',
        type=TurboMindAPIModel,
        path='internlm2_chat_1_8b',
        # key='xxxxxx',  # please give you key
        # secretkey='xxxxxxxxx',  # please give your group_id
        url='http://0.0.0.0:23333/v1',
        api_key='YOUR_API_KEY',  # 替换为你的OpenAI API密钥，由于我们使用的本地API，无需密钥，任意填写即可
        generation_kwargs = {
            'temperature': 0.8,
        },
        query_per_second=1,
        max_out_len=2048,
        max_seq_len=2048,
        batch_size=8
    ),
]

infer = dict(
    partitioner=dict(type=NaivePartitioner),
    runner=dict(
        type=LocalAPIRunner,
        max_num_workers=2,
        concurrent_users=2,
        task=dict(type=OpenICLInferTask)),
)

work_dir = "outputs/api_internlm2_chat_1_8b/"

借鉴于此文件

# 导入openai模块中的OpenAI类，这个类用于与OpenAI API进行交互
from openai import OpenAI


# 创建一个OpenAI的客户端实例，需要传入API密钥和API的基础URL
client = OpenAI(
    api_key='YOUR_API_KEY',  
    # 替换为你的OpenAI API密钥，由于我们使用的本地API，无需密钥，任意填写即可
    base_url="http://0.0.0.0:23333/v1"  
    # 指定API的基础URL，这里使用了本地地址和端口
)

# 调用client.models.list()方法获取所有可用的模型，并选择第一个模型的ID
# models.list()返回一个模型列表，每个模型都有一个id属性
model_name = client.models.list().data[0].id

# 使用client.chat.completions.create()方法创建一个聊天补全请求
# 这个方法需要传入多个参数来指定请求的细节
response = client.chat.completions.create(
  model=model_name,  
  # 指定要使用的模型ID
  messages=[  
  # 定义消息列表，列表中的每个字典代表一个消息
    {"role": "system", "content": "你是一个友好的小助手，负责解决问题."},  
    # 系统消息，定义助手的行为
    {"role": "user", "content": "帮我讲述一个关于狐狸和西瓜的小故事"},  
    # 用户消息，询问时间管理的建议
  ],
    temperature=0.8,  
    # 控制生成文本的随机性，值越高生成的文本越随机
    top_p=0.8  
    # 控制生成文本的多样性，值越高生成的文本越多样
)

# 打印出API的响应结果
print(response.choices[0].message.content)

启动api服务

conda activate opencompass
lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat-w4a16-4bit \
    --model-format awq \
    --cache-max-entry-count 0.4 \
    --quant-policy 4 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

新建终端

conda activate opencompass

cd opencompass

export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

python run.py configs/api_examples/eval_api_internlm2_chat_1_8b.py -w outputs/turbomind/internlm2_chat_1_8b --datasets ceval_gen

完

一直没有分纳闷两天两夜。。。。。

小结：通过本次【评测实战】，充分了解评测流程配置 -> 推理 -> 评估 -> 可视化，实战了主观评测，LMDeploy部署后用 OpenCompass 评测 InternLM2-Chat-1.8B 模型，以及调用API评测

尽管最终都没有的出分哭脸，然从小白到熟练评测配置，仍有意义。

鸣谢：大佬

‌‍‍‍‬‬‬‌‍‍‍⁠⁠⁠⁠‬‍‍⁠‬‬‬浦语Camp3:基础6-OpenCompass 评测 InternLM-1.8B 实践 - 飞书云文档 (feishu.cn)