Day 0 实测|在 GPUStack 上部署 DeepSeek-V4-Flash-DSpark,吞吐直接翻倍

本文由 GPUStack 社区用户实测分享整理。DeepSeek-V4-Flash-DSpark 是在 DeepSeek-V4-Flash 基础上挂载了投机解码(Speculative Decoding)模块的增强版本——同一份权重,额外的投机模块,让吞吐和首 Token 时延同时变好。

社区用户拿到模型当天(Day 0)就在 8 卡 H20-141G 的环境上,通过 GPUStack 完成了部署和压测,并和原生 DeepSeek-V4-Flash(DSV4F)做了同参数对比。先把结论放在最前面:

  • 单并发 TPS:1K/1K 场景下 DSpark 195 TPS,是原版(96)的约 2 倍
  • 整体吞吐:64K/3K、10 并发场景下 DSpark 338 TPS,是原版(198)的约 1.7 倍
  • 首 Token 时延(TTFT):约为原版的 1/2

下面是完整的部署与实测过程。


一、在 GPUStack 上部署 DSpark

GPUStack 内置了 SGLang 推理后端,我们只需为它增加一个支持 DSpark 的镜像版本,整个过程在 Web 界面上点几下即可完成。

① 进入「推理后端」,编辑 SGLang

左侧菜单进入 推理后端,找到 SGLang 卡片,点右上角菜单 →「编辑」。

② 添加 dspark 版本

在版本配置里点「添加版本」,新增一个名为 dspark 的版本,镜像名称填写:

swr.cn-north-4.myhuaweicloud.com/desaysv/gpustack/sglang-dspark:v1.0

框架选择 CUDA,覆盖镜像入口命令为 sglang serve,执行命令为 --model-path {{model_path}} --host {{worker_ip}} --port {{port}}

③ 新建部署

回到 部署 页面,点击右上角「部署模型」,来源选择 ModelScope

④ 选模型与后端

  • 模型搜索并选择 deepseek-ai/DeepSeek-V4-Flash-DSpark
  • 后端选 SGLang
  • 后端版本选刚才添加的 dspark-custom

⑤ 配置后端参数

在「高级」里逐项填入后端参数(以 8 卡 H20-141 为例):

--context-length 1000000
--trust-remote-code
--tp-size 8
--ep-size 8
--moe-runner-backend flashinfer_mxfp4
--speculative-moe-runner-backend flashinfer_mxfp4
--speculative-algorithm DSPARK
--speculative-eagle-topk 1
--speculative-num-steps 1
--mem-fraction-static 0.85
--cuda-graph-max-bs 32
--max-running-requests 32
--disable-overlap-schedule

⑥ 设置环境变量

添加一个环境变量,确保依赖正确安装:

PYPI_PACKAGES_INSTALL-U distro -i https://mirrors.aliyun.com/pypi/simple/

⑦ 启动,观察日志

提交后模型开始拉起。可以看到 CUDA Graph capture、Application startup complete,以及 Uvicorn 监听在推理端口上:

⑧ 状态变为 Running

实例进入 Running,部署完成。

⑨ 在线验证

在试验场里随便对话两句,右下角实时吞吐显示 输出 185.94 Tokens/s,单并发 TPS 稳定在 200 左右

⑩ 查看推理服务端口

如果要直接压测,点开实例详情即可看到推理服务的 IP 和端口(本例为 10.91.3.213:40048)。


二、性能实测:DSpark vs 原版 DSV4F

相同参数、相同硬件下,把原生 DeepSeek-V4-Flash(开启 MTP)与 DSpark 做了两组对比压测。压测命令使用 SGLang 自带的 bench_serving

场景 1:1K / 1K(单请求)

HF_ENDPOINT=https://hf-mirror.com python3 -m sglang.bench_serving \
    --backend sglang --port 40048 \
    --dataset-name random --random-input-len 1024 --random-output-len 1024 \
    --random-range-ratio 1.0 --num-prompts 1 \
    --max-concurrency 1 --request-rate inf --host <推理服务器IP>

传统 DSV4F: Output throughput 96.20 tok/s,TTFT 300.45 ms,Accept length 2.71

DSpark(DSV4FD): Output throughput 195.18 tok/s,TTFT 129.34 ms,Accept length 4.42

单并发 TPS = 195,是普通 DSV4F(96)的约 2 倍,首 Token 时延同时降到原来的 ~1/2。

场景 2:64K / 3K(10 个请求)

HF_ENDPOINT=https://hf-mirror.com python3 -m sglang.bench_serving \
    --backend sglang --port 40048 \
    --dataset-name random --random-input-len 64000 --random-output-len 3000 \
    --random-range-ratio 1.0 --num-prompts 10 \
    --max-concurrency 1 --request-rate inf --host <推理服务器IP>

传统 DSV4F(MTP): Output throughput 198.60 tok/s,投机接受率 20.91%,Acceptance length 1.21

DSpark(DSV4FD): Output throughput 338.17 tok/s,Accept length 4.90

长上下文场景下 DSpark TPS = 338,是普通 DSV4F(198)的约 1.7 倍,整体吞吐接近翻倍。

数据汇总

场景指标传统 DSV4FDSpark(DSV4FD)提升
1K / 1KOutput TPS96.20195.18≈ 2.0×
1K / 1KTTFT (ms)300.45129.34≈ 0.43×
1K / 1KAccept length2.714.42
64K / 3KOutput TPS198.60338.17≈ 1.7×
64K / 3KAccept length1.214.90

【开源地址】:github.com/gpustack/gpustack

内容概要:本文围绕“栅格内牛耕”策略与A星(A*)算法相结合的全覆盖路径规划方法展开研究,提出了一种适用于栅格化环境的高效路径规划方案。通过引入系统性的“牛耕式”扫描策略,确保对区域内所有有效栅格的无遗漏覆盖,并融合A*算法进行路径优化,提升路径的合理性与执行效率。该方法特别适用于需完成全域遍历任务的智能设备,如清洁机器人、农业自动化机械和巡检无人机等。文中详细阐述了算法的设计思路、关键实现步骤及启发式函数的改进机制,并借助Matlab平台进行了仿真实验,验证了该方法在复杂障碍环境下的有效性与鲁棒性。; 适合人群:具备一定Matlab编程基础,从事路径规划、智能机器人、自动化控制等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于扫地机器人、无人农场农机、巡检机器人等需实现区域全覆盖作业的设备路径规划;②帮助研究人员深入理解A*算法在全覆盖场景中的改进策略,掌握覆盖优先级、方向约束与回溯机制的设计方法;③作为教学与科研案例,辅助学习启发式搜索算法与系统性覆盖策略的融合应用。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点分析A*算法在覆盖完整性与路径最优化之间的平衡机制,通过调整环境地图、障碍物分布及起始点位置开展多组仿真实验,深入探究算法性能影响因素与优化方向。
内容概要:本文深入研究了LLC谐振变换器的变频移相混合控制模型,并基于Simulink平台完成了系统的建模仿真与性能验证。该控制策略融合变频控制与移相控制的优点,旨在提升LLC变换器在宽输入电压和宽负载工况下的转换效率与运行稳定性。文章系统阐述了LLC谐振变换器的工作原理、小信号建模方法、混合控制策略的设计思路及其实现方式,重点分析了其在实现零电压开关(ZVS)、抑制环流、降低开关损耗和提高整体效率方面的优势。通过详尽的仿真结果,验证了所提出混合控制模型在动态响应、稳态精度和系统鲁棒性方面的优越性能。; 适合人群:具备电力电子变换器基础知识、掌握Simulink/Matlab仿真技能,从事高频高效电源系统、新能源变换技术或相关领域研究的研究生、高校教师及工程技术人员。; 使用场景及目标:① 深入理解LLC谐振变换器的核心工作机理与数学模型;② 掌握并实现变频与移相结合的先进控制策略;③ 利用Simulink搭建完整的控制系统模型,进行仿真分析与参数优化,为实际硬件开发提供理论支撑和技术储备。; 阅读建议:建议读者结合提供的Simulink模型进行同步操作与参数调试,重点关注控制逻辑的实现细节与关键波形的分析,有条件者可进一步开展硬件实验,实现从仿真到实物的闭环验证,深化理论与工程实践的融合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值