一、运行模式
python -m vllm.entrypoints.openai.api_server \
--model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 \
--served-model-name qwen-gptq \
--trust-remote-code \
--enforce-eager \
--max-model-len 256 \
--tensor-parallel-size 2 \
--dtype float16 \
--quantization gptq \
--port 8001 \
--host 127.0.0.1
二、参数说明
模型参数
--model: 指定要使用的 Hugging Face 模型的名字或路径,默认是 facebook/opt-125m。
--tokenizer: 指定 Hugging Face 分词器的名字或路径。如果不指定,则使用模型的名字或路径。
--skip-tokenizer-init: 如果设置此选项,将跳过分词器和去分词器的初始化。
--revision, --code-revision, --tokenizer-revision: 分别指定模型、模型代码和分词器的具体版本(分支名、标签名或提交ID)。
--tokenizer-mode: 分词器模式,可以是 "auto" 或 "slow",前者优先使用快速分词器,后者总是使用慢速分词器。


6117

被折叠的 条评论
为什么被折叠?



