VLLM专题（二十九）—优化与调优

原创已于 2025-03-19 10:23:11 修改 · 488 阅读

标签

#人工智能

收录于

于 2025-03-18 08:58:54 首次发布

大模型与推理加速专题专栏收录该内容

120 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

1. 抢占（Preemption）

由于 Transformer 架构的自回归特性，有时 KV 缓存空间不足以处理所有批处理请求。vLLM 可以通过抢占请求来释放 KV 缓存空间，以供其他请求使用。被抢占的请求会在 KV 缓存空间再次充足时重新计算。当发生这种情况时，系统会打印以下警告：

WARNING 05-09 00:49:33 scheduler.py:1057 由于 KV 缓存空间不足，序列组 0 被 PreemptionMode.SWAP 模式抢占。这可能会影响端到端性能。请增加 gpu_memory_utilization 或 tensor_parallel_size 以提供更多的 KV 缓存内存。total_cumulative_preemption_cnt=1

虽然这种机制确保了系统的鲁棒性，但抢占和重新计算可能会对端到端延迟产生不利影响。如果您经常遇到 vLLM 引擎的抢占问题，可以考虑以下操作：