vllm 中gpu_memory_utilization参数默认值及其含义

在 vLLM 中,gpu_memory_utilization 的默认值是 0.9(即 90%)

这意味着 vLLM 在启动时会尝试预留 GPU 总显存的 90% 用于模型推理(包括存储 KV Cache、模型权重、中间激活值等)。剩下的 10% 显存则留给系统和其他进程(如显卡驱动)使用。

详细说明:

  1. 目的:这个参数是 vLLM 内存管理的核心配置之一。它决定了 vLLM 的 PagedAttention 调度器可以管理多少 GPU 内存来存放 KV Cache,这是实现其高性能并发推理的关键。

  2. 如何设置

    • 降低该值(例如 0.8):如果你的 GPU 上还运行着其他需要显存的进程,或者你遇到了 “Out of Memory” 错误,可以尝试降低这个比例,为系统和其他任务预留更多空间。
    • 提高该值(例如 0.95):如果你确定 GPU 只专用于 vLLM 推理,并且希望尽可能多地利用显存来服务更多并发请求,可以尝试提高这个比例。但请注意,将其设置为 1.0 或更高是非常危险的,这几乎必然会导致 CUDA 内存分配失败和 OOM 错误,因为必须为系统和 CUDA 内核本身预留一些内存。
    • 通常,0.8 到 0.95 是一个比较安全和常见的范围。
  3. 使用示例
    在初始化 LLM 对象时,你可以通过参数来指定它。

    from vllm 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

6lyc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值