一图看透:910B、H20、A100、H100、H200性能对比!

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen
文本生成
Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

写在前面

小弟最近需要去购买一些服务器,但是网上的一些显卡性能感觉都是大抄特抄,根本没有具体到显卡的型号,所以本人去Nvidia的官方文档记录了一些数据

主流服务器GPU性能

项目

910B

H20 HGX

A100 HGX

H100 SXM

H200 SXM

架构

-

Hopper

Ampere

Hopper

Hopper

发布时间

2023

2024

2020

2022

2024

GPU内存

64GB

96GB

80GB

80GB

141GB

GPU内存带宽

-

4.0TB/s

2039GB/s

3.35TB/s

4.8TB/s

TF32(TFLOPS)

-

74

156

989

989

FP16(TFLOPS)

320*

148

312

1979

1979

BF16 (TFLOPS)

-

148

312

1979

1979

INT8 (TOPS)

640*

296

624

3958

3958

INT4(TOPS)

-

-

1248

-

-

  • *表示数据来源于网络,并非官方文档
  • SXM(Scalable Link Interface)是一种用于数据中心和超级计算机的高带宽、低延迟的接口标准,支持更高的功率和更高的带宽。SXM卡通常插入到支持NVIDIA SXM接口的服务器或工作站中。
  • NVL(NVIDIA Link)是一种适配卡,主要设计用于与 NVIDIA DGX 系列服务器和其他云计算平台配合工作。它的接口通常与标准的 PCIe插槽兼容,可以更容易地集成到现有的企业和云计算架构中
  • HGX就是使用的SXM接口

其实对于我们训模型来说,主要关注FP16、BF16、INT8的速度即可,其他的性能我觉得都不太重要。

模型所需显存

  • 模型权重占用:在BF16精度下,1B模型所需显存约为2G,即70B的模型大约需要140G显存
  • 前向计算开销:通常在模型权重的20%左右(经验估算)
  • 对于一个72B的模型,推理所需的显存为2*72*1.2=172.8G
  • 不同的框架所需显存会略有差别,如vllm使用KV Cache加速推理,本质上是用显存换取时间

下面是一些模型估算的显存占用

模型

需要显存

Qwen2.5 72B-Inst.

172.8G

R1-Distill-Qwen-32B

76.8G

R1-Distill-Qwen-14B

33.6G

R1-Distill-Qwen-7B

16.8G

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen
文本生成
Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小火汁猛猛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值