Sageattention window wheel 下载与安装

原创于 2026-04-24 09:41:08 发布 · 362 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Sageattention

SageAttention 是一个由清华大学团队开发的量化注意力机制框架，旨在解决大模型在处理长序列时计算开销过大的问题。

简单来说，它通过低比特量化技术（如 INT8、FP4），在不明显损失模型精度的前提下，大幅提升了 Transformer 模型的推理和训练速度。它是目前大模型加速领域非常热门的工具，特别是在视频生成和长文本处理任务中表现优异。

🚀 核心亮点

1. 极致的速度提升

SageAttention 通过优化底层 CUDA 算子，实现了比主流方案更快的计算速度：

相比 FlashAttention：SageAttention3 在 RTX 5090 等新一代显卡上，推理速度可达 FlashAttention 的 5 倍。
长序列优势：在处理 32K 长度的序列时，其速度优势尤为明显，吞吐量可达 1000+ TOPS。

2. 创新的量化技术

不同于简单的降低精度，SageAttention 采用了一系列复杂的技术来保证“又快又准”：

混合精度量化：在 QK（Query-Key）计算中使用 INT8，在 PV（Probability-Value）计算中支持 FP16/FP8，甚至全 FP4 量化（SageAttention3）。
异常值处理：针对 K 矩阵的通道异常值分布，采用了平滑处理（K = K – mean(K)），消除了量化误差的主要来源。
微缩放（Microscaling）：SageAttention3 利用 Blackwell 架构的硬件特性，支持 FP4 微缩放格式，进一步压榨硬件性能。

3. 支持训练加速

这是 SageAttention 的一大突破。早期的量化算子通常只支持推理（Inference），而 SageAttention 首次提出了可训练的 8-bit 注意力机制（SageBwd），支持反向传播，使得大模型的微调训练速度也能得到显著提升。

4. 即插即用

它提供了非常友好的接口，可以像替换普通函数一样替换 PyTorch 原生的注意力机制，无需大幅修改模型代码。

下载地址：

📁 Sageattention 资源索引

序号	sageattention	PyTorch	CUDA	Python	文件名	网盘链接
1	2.1.1	2.6	12.6	3.12	`sageattention-2.1.1+cu126torch2.6.0-cp312-cp312-win_amd64.whl`	`https://pan.quark.cn/s/e3475d812264`
2	2.1.1	2.8	12.8	3.12	`sageattention-2.1.1+cu128torch2.8.0-cp312-cp312-win_amd64.whl`	`https://pan.quark.cn/s/a39229e9150d`
3	2.2.0	2.9	12.8	3.12	`sageattention-2.2.0+cu128torch2.9.0cxx11abi1-cp312-cp312-win_amd64.whl`	`https://pan.quark.cn/s/4a6e781ea1df`
4	2.2.0.	2.8	12.8	3.13	`sageattention-2.2.0.post3+cu128torch2.8.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/e8a764ac795c`
5	2.2.0.	2.9	12.8	3.13	`sageattention-2.2.0.post3+cu128torch2.9.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/6aa598616666`
6	2.2.0.	2.10	12.8	3.12	`sageattention-2.2.0.post3+cu128torch2.10.0-cp312-cp312-win_amd64.whl`	`https://pan.quark.cn/s/33495351123c`
7	2.2.0.	2.10	12.8	3.13	`sageattention-2.2.0.post3+cu128torch2.10.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/e40f80a282e4`
8	2.2.0.	2.8	12.9	3.13	`sageattention-2.2.0.post3+cu129torch2.8.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/30f93e7030aa`
9	2.2.0.	2.9	12.9	3.13	`sageattention-2.2.0.post3+cu129torch2.9.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/094569b5f89f`
10	2.2.0.	2.9	13.0	3.13	`sageattention-2.2.0.post3+cu130torch2.9.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/63b05a5ba2ac`
11	2.2.0.	2.10	13.0	3.12	`sageattention-2.2.0.post3+cu130torch2.10.0-cp312-cp312-win_amd64.whl`	`https://pan.quark.cn/s/bfe8688f5e92`
12	2.2.0.	2.10	13.0	3.13	`sageattention-2.2.0.post3+cu130torch2.10.0-cp313-cp313-win_amd64.whl`	`https://pan.quark.cn/s/2f4080d4ddc5`