DeepSeek蒸馏版模型VLLM部署方案

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

一、环境准备

  1. 检查CUDA版本
nvidia-smi | grep "CUDA Version"  

注意:

  • 根据CUDA版本选择对应的安装流程(12.4 / <12.1)
  • 确保GPU驱动与CUDA版本兼容(参考NVIDIA官方文档 )

二、环境配置

  1. CUDA 12.4 版本配置流程
# 创建conda环境  
conda create -n vllm_v0.7.1 python=3.11 –y  
conda activate vllm_v0.7.1  

# 安装vllm(使用清华镜像加速)  
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple   
  1. CUDA <12.1 版本配置流程
# 创建conda环境  
conda create -n vllm_ds2 python=3.10  
conda activate vllm_ds2  

# 安装指定版本vllm  
pip install vllm==0.3.2  

关键差异说明:

CUDA 12.4需搭配更高版本Python(3.11)和默认vllm
CUDA <12.1需使用旧版Python(3.10)和vllm==0.3.2

三、服务启动命令

  1. 前台启动(实时日志)
CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536  
  1. 后台启动(nohup日志持久化)
CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
nohup vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536 > vllm.log  2>&1 &  

vllm是0.3.2版本时,启动命令有差异:

CUDA_VISIBLE_DEVICES=0 VLLM_USE_V1=1 VLLM_WORKER_MULTIPROC_METHOD=spawn python3 -m vllm.entrypoints.openai.api_server --model /data/LLM/Qwen2.5-3B-Instruction --trust-remote-code --served-model-name qwen2.5-3b --gpu-memory-utilization 0.12 --tensor-parallel-size 1 --port 8567 --max-model-len 5536

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值