VLLM多卡并行优化策略

原创已于 2025-07-21 16:29:45 修改 · 5.2k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#ai #语言模型

于 2025-03-01 16:45:00 首次发布

25 篇文章

订阅专栏

CoPaw

AI应用

Qwen

Qwen3

内置vllm部署的Qwen3-4B-Instruct-2507模型，agentscope开源的类似openclaw个人助手。

一、多卡并行方式

多卡并行方式，主要分为张量并行（Tensor Parallelism）和数据并行（Data Parallelism）。

VLLM多卡并行主要依赖 张量并行（Tensor Parallelism） 实现模型分布式推理。因此我们采用这种方案。

参数	作用说明	推荐值
CUDA_VISIBLE_DEVICES	为当前进程划定可使用的GPU范围	0,1,2,3 根据GPU显卡数量设定
–tensor-parallel-size	指定GPU并行数量（需与CUDA_VISIBLE_DEVICES数量一致）	2/4/8（根据模型规模调整）
–gpu-memory-utilization	显存利用率阈值（0.9~0.95为高负载场景推荐）	0.7~0.95
–max-model-len	最大输入长度（需根据GPU显存动态调整）	4096~16384

示例：

CUDA_VISIBLE_DEVICES=0,1,2,3 \  
vllm serve /path/to/model \  
--tensor-parallel-size 4 \  
--gpu-memory-utilization 0.9

export NCCL_ALGO=Tree  
export NCCL_SOCKET_IFNAME=eth0  # 指定高速网络接口

您可能感兴趣的与本文相关的镜像

CoPaw

AI应用

Qwen

Qwen3

内置vllm部署的Qwen3-4B-Instruct-2507模型，agentscope开源的类似openclaw个人助手。