双卡 3080ti 部署 Yi-34B 大模型 - Gradio + vLLM 踩坑全记录

原创

已于 2024-01-02 09:28:57 修改 · 1.3w 阅读

标签

#python #人工智能 #深度学习 #llama #语言模型

于 2024-01-01 17:37:10 首次发布

引言

上次介绍了怎么用 vllm 去部署 Yi-34B 的 Int4 版本。这次尝试下 12G 显存的双卡部署，因为这个模型即使是 int4 的版本，也差不多需要至少 20G 的显存，所以如果是 12G 显存的话，也至少需要两块显卡。我这里尝试下用两个 3080Ti 跑起来这个模型。

整个过程其实和上个视频的过程是类似的，本来觉得整个过程应该比较顺利，但最后发现还是踩了不少坑，这里我用这个视频把整个过程记录一下供大家参考。

所以请参考只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型以及视频一起看。

TL;DR

12G 双卡部署需要额外的参数，不然会容易出现显存不足的报错，这部分参数在其他显存紧张的场景同样适用
Gradio 所提供的 share link 需要注意网络环境，必须先让它下载 frp，然后关闭网络加速才能看到 share link

一键部署 vllm 处理显存不足的问题

先安装 vllm 和 modelscope

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm modelscope

然后我们从文档这里可以看到 vllm 其实是支持 modelscope 一键部署的，就是说我们没必要自己去下载 modelscope 里的模型，在启动 vllm 的时候它会帮我们进行下载。

export MODELSCOPE_CACHE=/root/autodl-tmp
export VLLM_USE_MODELSCOPE=True
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:64
python -m vllm.entrypoints.openai.api_server \
    --model 01ai/Yi-34B-Chat-4bits \
    --served-model-name 01ai/Yi-34B-Chat-4bits \
    --trust-remote-code \
    --max-model-len 2048