vllm0.5.0的api_server参数说明

一、运行模式

python -m vllm.entrypoints.openai.api_server \

  --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 \

  --served-model-name qwen-gptq \

  --trust-remote-code \

  --enforce-eager \

  --max-model-len 256 \

  --tensor-parallel-size 2 \

  --dtype float16 \

  --quantization gptq \

  --port 8001 \

  --host 127.0.0.1

二、参数说明

模型参数

--model: 指定要使用的 Hugging Face 模型的名字或路径,默认是 facebook/opt-125m。

--tokenizer: 指定 Hugging Face 分词器的名字或路径。如果不指定,则使用模型的名字或路径。

--skip-tokenizer-init: 如果设置此选项,将跳过分词器和去分词器的初始化。

--revision, --code-revision, --tokenizer-revision: 分别指定模型、模型代码和分词器的具体版本(分支名、标签名或提交ID)。

--tokenizer-mode: 分词器模式,可以是 "auto" 或 "slow",前者优先使用快速分词器,后者总是使用慢速分词器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值