VLLM在linux下部署

CoPaw

内置vllm部署的Qwen3-4B-Instruct-2507模型,agentscope开源的类似openclaw个人助手。

1.docker部署

镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1

启动:

sudo docker run  -d  --privileged=true --gpus all -v /vllm:/home/llm_deploy     -p 9000:8000  --ipc=host     --name vllm2025     vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。

2.pip安装vllm==0.8.5 

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本,运行:nvcc --version

 如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve  RolmOCR --dtype=half/

使用时,模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")

    model = "Qwen3-4B"


    def chat():
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": [

                        {
                            "type": "text",
                            "text": "中国首都.\n",
       
                        },
                    ],
                }
            ],
            temperature=0.1,
            max_tokens=4096
        )
        return response.choices[0].message.content


    print(chat())

您可能感兴趣的与本文相关的镜像

CoPaw

CoPaw

AI应用
Qwen
Qwen3

内置vllm部署的Qwen3-4B-Instruct-2507模型,agentscope开源的类似openclaw个人助手。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值