vllm0.5.0的api_server参数说明

最新推荐文章于 2026-04-27 03:30:21 发布

原创

最新推荐文章于 2026-04-27 03:30:21 发布 · 3.7k 阅读

·

12

·

标签

#python #vllm #openai #人工智能

一、运行模式

python -m vllm.entrypoints.openai.api_server \

  --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 \

  --served-model-name qwen-gptq \

  --trust-remote-code \

  --enforce-eager \

  --max-model-len 256 \

  --tensor-parallel-size 2 \

  --dtype float16 \

  --quantization gptq \

  --port 8001 \

  --host 127.0.0.1

二、参数说明

模型参数

--model: 指定要使用的 Hugging Face 模型的名字或路径，默认是 facebook/opt-125m。

--tokenizer: 指定 Hugging Face 分词器的名字或路径。如果不指定，则使用模型的名字或路径。

--skip-tokenizer-init: 如果设置此选项，将跳过分词器和去分词器的初始化。

--revision, --code-revision, --tokenizer-revision: 分别指定模型、模型代码和分词器的具体版本（分支名、标签名或提交ID）。

--tokenizer-mode: 分词器模式，可以是 "auto" 或 "slow"，前者优先使用快速分词器，后者总是使用慢速分词器。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。