写在前面
小弟最近需要去购买一些服务器,但是网上的一些显卡性能感觉都是大抄特抄,根本没有具体到显卡的型号,所以本人去Nvidia的官方文档记录了一些数据
主流服务器GPU性能
|
项目 |
910B |
H20 HGX |
A100 HGX |
H100 SXM |
H200 SXM |
|
架构 |
- |
Hopper |
Ampere |
Hopper |
Hopper |
|
发布时间 |
2023 |
2024 |
2020 |
2022 |
2024 |
|
GPU内存 |
64GB |
96GB |
80GB |
80GB |
141GB |
|
GPU内存带宽 |
- |
4.0TB/s |
2039GB/s |
3.35TB/s |
4.8TB/s |
|
TF32(TFLOPS) |
- |
74 |
156 |
989 |
989 |
|
FP16(TFLOPS) |
320* |
148 |
312 |
1979 |
1979 |
|
BF16 (TFLOPS) |
- |
148 |
312 |
1979 |
1979 |
|
INT8 (TOPS) |
640* |
296 |
624 |
3958 |
3958 |
|
INT4(TOPS) |
- |
- |
1248 |
- |
- |
- *表示数据来源于网络,并非官方文档
- SXM(Scalable Link Interface)是一种用于数据中心和超级计算机的高带宽、低延迟的接口标准,支持更高的功率和更高的带宽。SXM卡通常插入到支持NVIDIA SXM接口的服务器或工作站中。
- NVL(NVIDIA Link)是一种适配卡,主要设计用于与 NVIDIA DGX 系列服务器和其他云计算平台配合工作。它的接口通常与标准的 PCIe插槽兼容,可以更容易地集成到现有的企业和云计算架构中
- HGX就是使用的SXM接口
其实对于我们训模型来说,主要关注FP16、BF16、INT8的速度即可,其他的性能我觉得都不太重要。
模型所需显存
- 模型权重占用:在BF16精度下,1B模型所需显存约为2G,即70B的模型大约需要140G显存
- 前向计算开销:通常在模型权重的20%左右(经验估算)
- 对于一个72B的模型,推理所需的显存为2*72*1.2=172.8G
- 不同的框架所需显存会略有差别,如vllm使用KV Cache加速推理,本质上是用显存换取时间
下面是一些模型估算的显存占用
|
模型 |
需要显存 |
|
Qwen2.5 72B-Inst. |
172.8G |
|
R1-Distill-Qwen-32B |
76.8G |
|
R1-Distill-Qwen-14B |
33.6G |
|
R1-Distill-Qwen-7B |
16.8G |

2341

被折叠的 条评论
为什么被折叠?



