大模型推理:Ktransformers单机Docker部署Deepseek-R1 671B量化版

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

Ktransformers

ktransformers是清华开源的一款专为大模型设计的高效推理服务框架。通过整合多项创新技术,包括优化的 CPU/GPU 异构硬件调度、MoE 模型的稀疏矩阵卸载策略、高效算子优化以及 CUDA Graph 加速等,这一框架显著降低了对硬件的依赖需求,同时显著提升了推理效率。官方给的测试中在 24GB 显存的硬件条件下,ktransformers 已成功实现 DeepSeek R1 671B 4bit 量化模型的部署,且单个实例推理速度可达 14 tokens/秒(截至 2025 年 3 月,仅支持 MoE架构的模型)。

前提信息

  • Linux平台下 RTX4090 x 4 +512DRAM,部署4bit量化版
  • Ktransformers版本 0.2.1,docker镜像 approachingai/ktransformers:0.2.1(截止20250224 Docker hub中仅有非官方版的0.3.x版本镜像)
  • CPU支持avx512指令集(可通过命令 lscpu查看是否支持,信息里面有个Flags参数)

Docker部署

  • 官方docker镜像下载(若下载失败,百度下docker镜像源)
    docker pull approachingai/ktransformers:0.2.1
  • 启动Ktranformers容器
    docker run -d --runtime nvidia --network=host --gpus all -v /models:/workspace/models --env "TRANSFORMERS_OFFLINE=0" --env "HF_HUB_OFFLINE=0" --name kt

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值