双卡 3080ti 部署 Yi-34B 大模型 - Gradio + vLLM 踩坑全记录

这里是 B 站【双显卡部署 Yi-34B 大模型 - vLLM + Gradio 踩坑记录】 的详细笔记,请和那边的视频一同食用效果更佳!

引言

上次介绍了怎么用 vllm 去部署 Yi-34B 的 Int4 版本。这次尝试下 12G 显存的双卡部署,因为这个模型即使是 int4 的版本,也差不多需要至少 20G 的显存,所以如果是 12G 显存的话,也至少需要两块显卡。我这里尝试下用两个 3080Ti 跑起来这个模型。

整个过程其实和上个视频的过程是类似的,本来觉得整个过程应该比较顺利,但最后发现还是踩了不少坑,这里我用这个视频把整个过程记录一下供大家参考。

所以请参考 只需 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大模型 以及 视频 一起看。

TL;DR

  1. 12G 双卡部署需要额外的参数,不然会容易出现显存不足的报错,这部分参数在其他显存紧张的场景同样适用
  2. Gradio 所提供的 share link 需要注意网络环境,必须先让它下载 frp,然后关闭网络加速才能看到 share link

一键部署 vllm 处理显存不足的问题

先安装 vllmmodelscope

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm modelscope

然后我们从文档这里可以看到 vllm 其实是支持 modelscope 一键部署的,就是说我们没必要自己去下载 modelscope 里的模型,在启动 vllm 的时候它会帮我们进行下载。

export MODELSCOPE_CACHE=/root/autodl-tmp
export VLLM_USE_MODELSCOPE=True
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:64
python -m vllm.entrypoints.openai.api_server \
    --model 01ai/Yi-34B-Chat-4bits \
    --served-model-name 01ai/Yi-34B-Chat-4bits \
    --trust-remote-code \
    --max-model-len 2048 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值