vllm框架大模型部署笔记

最新推荐文章于 2026-03-25 16:04:08 发布

原创

最新推荐文章于 2026-03-25 16:04:08 发布 · 7.8k 阅读

标签

#笔记 #linux #深度学习

收录于

举例：

export CUDA_VISIBLE_DEVICES=0,1
nohup python3 -m vllm.entrypoints.openai.api_server --served-model-name deepseek-v2-lite --model /mnt/data2/melan/model/DeepSeek-V2-Lite-Chat --host 10.4.118.205 --port 8301 --tensor-parallel-size 2 --gpu-memory-utilization 0.9 --enable-prefix-caching --trust-remote-code > logs/run_deepseek_v2_lite.log 2>&1 &
echo $! > pids/run_deepseek_v2_lite.pid

详解：

export CUDA_VISIBLE_DEVICES=0,1

解释：这行命令设置环境变量 CUDA_VISIBLE_DEVICES，将其值设为 0,1。
作用：指定程序只能使用编号为 0 和 1 的 GPU。这对于多 GPU 系统非常有用，可以控制程序使用哪些 GPU。

nohup python3 -m vllm.entrypoints.openai.api_server --served-model-name deepseek-v2-lite --model /mnt/data2/melan/model/DeepSeek-V2-Lite-Chat --host 10.4.118.205 --port 8301 --tensor-parallel-size 2 --

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Gu_erye

关注关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

丨汀、的博客

05-27

6312

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

参与评论您还未登录，请先登录后发表或查看评论

大模型推理加速框架vllm部署的实战方案

herosunly的博客

11-25

3万+

本文主要介绍了大模型推理加速框架vllm部署的实战方案，希望对学习大语言模型的同学们有所帮助。文章目录 1. 前言 2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 3. 运行vllm

【LLM】vLLM部署与int8量化

weixin_49816179的博客

01-09

2万+

介绍了vLLM原理并讲解如何支持peft，对不同的decoding methods进行了说明，同时详述了int8量化的过程。

快速理解vLLM命令行工具serve

最新发布

SunnyRivers

03-25

916

起步命令: 对于大多数单卡用户，只需关注 --model, --gpu-memory-utilization, --dtype, --max-model-len。显存不足: 优先检查 --quantization 是否使用了量化模型，或调整 --gpu-memory-utilization 和 --max-model-len。高并发: 开启 --enable-prefix-caching 和 --enable-chunked-prefill，并适当调大 --max-num-seqs。

大模型部署的主流技术：Ollama、LM Studio、vLLM

Code1994的博客

01-22

1万+

适合希望在本地环境中探索和应用大型语言模型的用户，无论你是技术专家还是普通用户，都可以通过 LM Studio 轻松实现 AI 模型的本地化部署和实验。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。，当你的理论知识积累到一定程度，就需要通过项目实战，

vLLM初探

邹中凡

05-12

7232

是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。在吞吐量方面，vLLM的性能比HuggingFace Transformers(HF)高出 24 倍，文本生成推理（TGI）高出3.5倍。是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

2402_84466582的博客

07-29

1万+

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

【VLLM】大模型本地化部署

qq_62223405的博客

07-13

2162

vLLM 非常适合中高级开发者、AI 工程团队，在具备一定 GPU 资源的前提下部署高效、低成本、可控的大语言模型服务，尤其适合本地化、安全敏感、高并发调用等场景。

使用VLLM部署Qwen3大模型的完整指南

engchina的专栏

04-29

7751

使用VLLM部署Qwen3-32B大模型的完整指南

一文说清VLLM .VS.Ollama的区别

打造全国最全的AI Agent开发知识领域的博客

03-03

5294

对比VLLM与Ollama，解析两者在性能、易用性和应用场景的异同，助你选择合适框架。

大模型框架：vLLM

m0_37559973的博客

05-24

1万+

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。

vLLM介绍

哦豁灬

04-04

2万+

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

vLLM深度解析：高性能大语言模型推理引擎全揭秘

2401_84495872的博客

04-08

2411

vLLM（Vectorized Large Language Model Serving System）是由加州大学伯克利分校团队开发的高性能、易扩展的大语言模型推理引擎。它专注于通过创新的内存管理和计算优化技术，实现高吞吐、低延迟、低成本的模型服务。

vLLM 部署大模型

热门推荐

哦豁灬

04-04

12万+

vLLM 是来自 UC Berkeley 的 LMSYS 在 LLM 推理方面的最新工作（没错就是搞出 Vicuna 的那个 group），最大亮点是采用 Paged Attention 技术，结合 Continuous Batching，极大地优化了 realtime 场景下的 LLM serving 的 throughput 与内存使用。

大模型实战教程 | 用vllm快速部署大模型

Code1994的博客

12-15

4485

在迅速发展的AI领域中，高效部署大型语言模型（LLM）对于许多应用程序至关重要。对于希望利用LLM力量的开发人员和组织来说，vLLM提供了一种简单、快速且经济高效的解决方案，用于在GPU上运行模型。本文将指导您完成vLLM的安装、在服务器上运行它以及将其集成到应用程序中的步骤。

大模型运行框架 VLLM 深度分析！

m0_59235945的博客

07-09

5572

VLLM 是伯克利大学 LMSYS 组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐量与内存使用效率。它通过创新的技术和优化策略，有效管理计算资源，为大语言模型的高效运行提供了强大支持。VLLM 利用全新的注意力算法「PagedAttention」，对注意力键和值进行高效管理，其核心理念在于通过优化内存管理和资源调度，提升大语言模型部署和执行的效率。

DeepSeek 部署指南 (使用 vLLM 本地部署)

m0_48891301的博客

02-07

4万+

vLLM (https://github.com/vllm-project/vllm) 是一个快速且易于使用的库，用于进行大型语言模型的推理和部署。

使用vllm部署自己的大模型

刘炫320的博客

04-26

3万+

使用vllm能够部署一个非常方便使用的大模型的后端，供webui前端使用，它不仅能够加速模型的推理过程，包括支持fast-attn库，而且还具有很友好的openai风格的api调用功能。

什么是VLLM

keyboard专栏

09-24

4704

VLLM 是一种强大的工具，专注于优化 LLM 的推理过程，尤其适用于需要高效推理和有限硬件资源的场景。通过使用动态张量并行、异步推理和高效的内存管理等技术，VLLM 能够显著提高推理性能，为大型语言模型的实际应用提供了更加灵活和可扩展的解决方案。

本地部署 vllm

engchina的专栏

12-25

5763

本地部署 vllm