SageAttention 是一个由清华大学团队开发的量化注意力机制框架,旨在解决大模型在处理长序列时计算开销过大的问题。
简单来说,它通过低比特量化技术(如 INT8、FP4),在不明显损失模型精度的前提下,大幅提升了 Transformer 模型的推理和训练速度。它是目前大模型加速领域非常热门的工具,特别是在视频生成和长文本处理任务中表现优异。
🚀 核心亮点
1. 极致的速度提升
SageAttention 通过优化底层 CUDA 算子,实现了比主流方案更快的计算速度:
- 相比 FlashAttention:SageAttention3 在 RTX 5090 等新一代显卡上,推理速度可达 FlashAttention 的 5 倍。
- 长序列优势:在处理 32K 长度的序列时,其速度优势尤为明显,吞吐量可达 1000+ TOPS。
2. 创新的量化技术
不同于简单的降低精度,SageAttention 采用了一系列复杂的技术来保证“又快又准”:
- 混合精度量化:在 QK(Query-Key)计算中使用 INT8,在 PV(Probability-Value)计算中支持 FP16/FP8,甚至全 FP4 量化(SageAttention3)。
- 异常值处理:针对 K 矩阵的通道异常值分布,采用了平滑处理(K = K – mean(K)),消除了量化误差的主要来源。
- 微缩放(Microscaling):SageAttention3 利用 Blackwell 架构的硬件特性,支持 FP4 微缩放格式,进一步压榨硬件性能。
3. 支持训练加速
这是 SageAttention 的一大突破。早期的量化算子通常只支持推理(Inference),而 SageAttention 首次提出了可训练的 8-bit 注意力机制(SageBwd),支持反向传播,使得大模型的微调训练速度也能得到显著提升。
4. 即插即用
它提供了非常友好的接口,可以像替换普通函数一样替换 PyTorch 原生的注意力机制,无需大幅修改模型代码。
下载地址:
📁 Sageattention 资源索引
| 序号 | sageattention | PyTorch | CUDA | Python | 文件名 | 网盘链接 |
|---|---|---|---|---|---|---|
| 1 | 2.1.1 | 2.6 | 12.6 | 3.12 | sageattention-2.1.1+cu126torch2.6.0-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/e3475d812264 |
| 2 | 2.1.1 | 2.8 | 12.8 | 3.12 | sageattention-2.1.1+cu128torch2.8.0-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/a39229e9150d |
| 3 | 2.2.0 | 2.9 | 12.8 | 3.12 | sageattention-2.2.0+cu128torch2.9.0cxx11abi1-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/4a6e781ea1df |
| 4 | 2.2.0. | 2.8 | 12.8 | 3.13 | sageattention-2.2.0.post3+cu128torch2.8.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/e8a764ac795c |
| 5 | 2.2.0. | 2.9 | 12.8 | 3.13 | sageattention-2.2.0.post3+cu128torch2.9.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/6aa598616666 |
| 6 | 2.2.0. | 2.10 | 12.8 | 3.12 | sageattention-2.2.0.post3+cu128torch2.10.0-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/33495351123c |
| 7 | 2.2.0. | 2.10 | 12.8 | 3.13 | sageattention-2.2.0.post3+cu128torch2.10.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/e40f80a282e4 |
| 8 | 2.2.0. | 2.8 | 12.9 | 3.13 | sageattention-2.2.0.post3+cu129torch2.8.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/30f93e7030aa |
| 9 | 2.2.0. | 2.9 | 12.9 | 3.13 | sageattention-2.2.0.post3+cu129torch2.9.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/094569b5f89f |
| 10 | 2.2.0. | 2.9 | 13.0 | 3.13 | sageattention-2.2.0.post3+cu130torch2.9.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/63b05a5ba2ac |
| 11 | 2.2.0. | 2.10 | 13.0 | 3.12 | sageattention-2.2.0.post3+cu130torch2.10.0-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/bfe8688f5e92 |
| 12 | 2.2.0. | 2.10 | 13.0 | 3.13 | sageattention-2.2.0.post3+cu130torch2.10.0-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/2f4080d4ddc5 |

1331

被折叠的 条评论
为什么被折叠?



