在 vLLM 中,gpu_memory_utilization 的默认值是 0.9(即 90%)。
这意味着 vLLM 在启动时会尝试预留 GPU 总显存的 90% 用于模型推理(包括存储 KV Cache、模型权重、中间激活值等)。剩下的 10% 显存则留给系统和其他进程(如显卡驱动)使用。
详细说明:
-
目的:这个参数是 vLLM 内存管理的核心配置之一。它决定了 vLLM 的 PagedAttention 调度器可以管理多少 GPU 内存来存放 KV Cache,这是实现其高性能并发推理的关键。
-
如何设置:
- 降低该值(例如 0.8):如果你的 GPU 上还运行着其他需要显存的进程,或者你遇到了 “Out of Memory” 错误,可以尝试降低这个比例,为系统和其他任务预留更多空间。
- 提高该值(例如 0.95):如果你确定 GPU 只专用于 vLLM 推理,并且希望尽可能多地利用显存来服务更多并发请求,可以尝试提高这个比例。但请注意,将其设置为 1.0 或更高是非常危险的,这几乎必然会导致 CUDA 内存分配失败和 OOM 错误,因为必须为系统和 CUDA 内核本身预留一些内存。
- 通常,0.8 到 0.95 是一个比较安全和常见的范围。
-
使用示例:
在初始化LLM对象时,你可以通过参数来指定它。from vllm


1824

被折叠的 条评论
为什么被折叠?



