vllm 中gpu_memory_utilization参数默认值及其含义

最新推荐文章于 2026-05-13 09:53:46 发布

原创

最新推荐文章于 2026-05-13 09:53:46 发布 · 3k 阅读

·

3

·

标签

#人工智能 #LLM #推理加速 #大模型 #infra

在 vLLM 中，gpu_memory_utilization 的默认值是 0.9（即 90%）。

这意味着 vLLM 在启动时会尝试预留 GPU 总显存的 90% 用于模型推理（包括存储 KV Cache、模型权重、中间激活值等）。剩下的 10% 显存则留给系统和其他进程（如显卡驱动）使用。

详细说明：

目的：这个参数是 vLLM 内存管理的核心配置之一。它决定了 vLLM 的 PagedAttention 调度器可以管理多少 GPU 内存来存放 KV Cache，这是实现其高性能并发推理的关键。
如何设置：
- 降低该值（例如 0.8）：如果你的 GPU 上还运行着其他需要显存的进程，或者你遇到了 “Out of Memory” 错误，可以尝试降低这个比例，为系统和其他任务预留更多空间。
- 提高该值（例如 0.95）：如果你确定 GPU 只专用于 vLLM 推理，并且希望尽可能多地利用显存来服务更多并发请求，可以尝试提高这个比例。但请注意，将其设置为 1.0 或更高是非常危险的，这几乎必然会导致 CUDA 内存分配失败和 OOM 错误，因为必须为系统和 CUDA 内核本身预留一些内存。
- 通常，0.8 到 0.95 是一个比较安全和常见的范围。
使用示例：
在初始化 LLM 对象时，你可以通过参数来指定它。
```
from vllm 
```

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

6lyc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。