Sageattention window wheel 下载与安装

SageAttention 是一个由清华大学团队开发的量化注意力机制框架,旨在解决大模型在处理长序列时计算开销过大的问题。

简单来说,它通过低比特量化技术(如 INT8、FP4),在不明显损失模型精度的前提下,大幅提升了 Transformer 模型的推理和训练速度。它是目前大模型加速领域非常热门的工具,特别是在视频生成和长文本处理任务中表现优异。

🚀 核心亮点

1. 极致的速度提升

SageAttention 通过优化底层 CUDA 算子,实现了比主流方案更快的计算速度:

  • 相比 FlashAttention:SageAttention3 在 RTX 5090 等新一代显卡上,推理速度可达 FlashAttention 的 5 倍
  • 长序列优势:在处理 32K 长度的序列时,其速度优势尤为明显,吞吐量可达 1000+ TOPS。
2. 创新的量化技术

不同于简单的降低精度,SageAttention 采用了一系列复杂的技术来保证“又快又准”:

  • 混合精度量化:在 QK(Query-Key)计算中使用 INT8,在 PV(Probability-Value)计算中支持 FP16/FP8,甚至全 FP4 量化(SageAttention3)。
  • 异常值处理:针对 K 矩阵的通道异常值分布,采用了平滑处理(K = K – mean(K)),消除了量化误差的主要来源。
  • 微缩放(Microscaling):SageAttention3 利用 Blackwell 架构的硬件特性,支持 FP4 微缩放格式,进一步压榨硬件性能。
3. 支持训练加速

这是 SageAttention 的一大突破。早期的量化算子通常只支持推理(Inference),而 SageAttention 首次提出了可训练的 8-bit 注意力机制(SageBwd),支持反向传播,使得大模型的微调训练速度也能得到显著提升。

4. 即插即用

它提供了非常友好的接口,可以像替换普通函数一样替换 PyTorch 原生的注意力机制,无需大幅修改模型代码。

下载地址:

📁 Sageattention 资源索引

序号sageattentionPyTorchCUDAPython文件名网盘链接
12.1.12.612.63.12sageattention-2.1.1+cu126torch2.6.0-cp312-cp312-win_amd64.whlhttps://pan.quark.cn/s/e3475d812264
22.1.12.812.83.12sageattention-2.1.1+cu128torch2.8.0-cp312-cp312-win_amd64.whlhttps://pan.quark.cn/s/a39229e9150d
32.2.02.912.83.12sageattention-2.2.0+cu128torch2.9.0cxx11abi1-cp312-cp312-win_amd64.whlhttps://pan.quark.cn/s/4a6e781ea1df
42.2.0.2.812.83.13sageattention-2.2.0.post3+cu128torch2.8.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/e8a764ac795c
52.2.0.2.912.83.13sageattention-2.2.0.post3+cu128torch2.9.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/6aa598616666
62.2.0.2.1012.83.12sageattention-2.2.0.post3+cu128torch2.10.0-cp312-cp312-win_amd64.whlhttps://pan.quark.cn/s/33495351123c
72.2.0.2.1012.83.13sageattention-2.2.0.post3+cu128torch2.10.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/e40f80a282e4
82.2.0.2.812.93.13sageattention-2.2.0.post3+cu129torch2.8.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/30f93e7030aa
92.2.0.2.912.93.13sageattention-2.2.0.post3+cu129torch2.9.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/094569b5f89f
102.2.0.2.913.03.13sageattention-2.2.0.post3+cu130torch2.9.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/63b05a5ba2ac
112.2.0.2.1013.03.12sageattention-2.2.0.post3+cu130torch2.10.0-cp312-cp312-win_amd64.whlhttps://pan.quark.cn/s/bfe8688f5e92
122.2.0.2.1013.03.13sageattention-2.2.0.post3+cu130torch2.10.0-cp313-cp313-win_amd64.whlhttps://pan.quark.cn/s/2f4080d4ddc5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值