只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型

原创

已于 2023-12-28 22:29:25 修改 · 7.7k 阅读

标签

#python #llama #人工智能 #神经网络 #深度学习

于 2023-12-28 17:39:08 首次发布

本文讲述了如何在24GB显存环境下使用vllm部署Yi-34B模型，涉及安装modelscope、下载模型、配置API服务及测试过程。

引言

上次介绍了用 vllm 去部署 mixtral 8x7b 的 GPTQ 量化版本，只是跑了一下 benchmark，这次玩一下 Yi-34b 这个模型的量化版本，看看怎么使用 vllm 直接暴露出来一个 API 服务。

Mixtral 这个模型虽然很强大，但是它对中文的支持并不好，尤其是对中文的知识了解的非常有限。而 Yi-34b 这个模型则是从一开始就进行的中英双语语料进行训练。

目前来看，依然在 chatbot arena 名列前茅。
在 huggingface 上依然有大量的微调版本出现。（我也好想去微调个试试看！）

而且 int4 版本可以在限定上下文长度的情况下部署在 24G 显存的消费级显卡上。这里我就记录下在 autodl 进行模型部署的详细步骤。

模型下载

之前有小伙伴反馈，hf 的资源其实是下不到的，这次 yi-34b 在 modelscope 上也有提供模型，我们可以通过 modelscope 进行下载。

1. 安装 modelscope

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope

2. 下载模型

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('01ai/Yi-34B-Chat-4bits', cache_dir='autodl-tmp', revision='master', ignore_file_pattern='.bin')

执行命令，注意使用参数 ignore_file_pattern 避免下载 bin 文件。

安装 vllm

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm

开启 openai 兼容的服务

python -m vllm.entrypoints.openai.api_server \
    --model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \
    --served-model-name 01ai/Yi-34B-Chat-4bits \
    --trust-remote-code \
    --max-model-len