这里是 B 站【双显卡部署 Yi-34B 大模型 - vLLM + Gradio 踩坑记录】 的详细笔记,请和那边的视频一同食用效果更佳!
引言
上次介绍了怎么用 vllm 去部署 Yi-34B 的 Int4 版本。这次尝试下 12G 显存的双卡部署,因为这个模型即使是 int4 的版本,也差不多需要至少 20G 的显存,所以如果是 12G 显存的话,也至少需要两块显卡。我这里尝试下用两个 3080Ti 跑起来这个模型。
整个过程其实和上个视频的过程是类似的,本来觉得整个过程应该比较顺利,但最后发现还是踩了不少坑,这里我用这个视频把整个过程记录一下供大家参考。
所以请参考 只需 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大模型 以及 视频 一起看。
TL;DR
- 12G 双卡部署需要额外的参数,不然会容易出现显存不足的报错,这部分参数在其他显存紧张的场景同样适用
- Gradio 所提供的 share link 需要注意网络环境,必须先让它下载 frp,然后关闭网络加速才能看到 share link
一键部署 vllm 处理显存不足的问题
先安装 vllm 和 modelscope
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm modelscope
然后我们从文档这里可以看到 vllm 其实是支持 modelscope 一键部署的,就是说我们没必要自己去下载 modelscope 里的模型,在启动 vllm 的时候它会帮我们进行下载。
export MODELSCOPE_CACHE=/root/autodl-tmp
export VLLM_USE_MODELSCOPE=True
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:64
python -m vllm.entrypoints.openai.api_server \
--model 01ai/Yi-34B-Chat-4bits \
--served-model-name 01ai/Yi-34B-Chat-4bits \
--trust-remote-code \
--max-model-len 2048


5735

被折叠的 条评论
为什么被折叠?



