flash_attn 是一个为 Transformer 模型量身打造的高效注意力机制实现库。它由加州大学伯克利分校(现斯坦福大学)的 Tri Dao 等人开发,旨在解决传统注意力机制在处理长序列时面临的计算速度慢和显存占用高的问题。
简单来说,flash_attn 是一个能让大模型训练和推理速度提升 2-4 倍,同时将显存占用降低数倍的“加速神器”。
核心优势:为何它如此重要?
flash_attn 的出现,解决了大模型开发中的两大核心瓶颈,其优势主要体现在以下两个方面:
-
极致的速度提升
通过深度优化 GPU 的计算流程,flash_attn能够显著减少计算时间。在 A100 等 GPU 上,相比 PyTorch 的标准注意力实现,其速度提升可达 2 到 4 倍,在某些场景下甚至更高。这意味着模型训练周期大幅缩短,实验迭代更快。 -
革命性的显存优化
传统注意力机制的显存占用与序列长度的平方成正比( O(N2)O(N2) ),这在处理长文本时会迅速耗尽显存。flash_attn通过巧妙的算法设计,将显存占用降低到与序列长度成线性关系( O(N)O(N) ),显存占用可减少 5 到 20 倍。这使得在有限的硬件资源下训练更大规模的模型或处理更长的上下文成为可能。
️ 技术原理:它是如何做到的?
flash_attn 的核心创新在于其 IO 感知(IO-Awareness) 的设计思想。它认识到,在现代 GPU 上,数据在高速片上内存(SRAM)和容量大但速度慢的全局显存(HBM)之间传输的开销,往往比计算本身更大。
为了解决这个问题,flash_attn 采用了两大关键技术:
-
分块计算(Tiling):
它不会一次性将整个巨大的 Q、K、V 矩阵加载到 HBM 中计算,而是将它们切分成许多小块。每次只将一小块数据从 HBM 加载到 SRAM 中进行计算,计算完成后再将结果写回 HBM。这个过程极大地减少了昂贵的高速与低速内存之间的数据传输次数。 -
重计算(Recomputation):
在模型训练的反向传播阶段,通常需要存储前向传播的中间结果(如注意力分数矩阵)。flash_attn选择“用计算换内存”,即不存储这些庞大的中间矩阵,而是在需要时重新计算它们。虽然增加了一些计算量,但节省了大量显存,总体效率反而更高。
下面是我整理的flash_attn window wheel 下载地址:
📁 Flash_attn 资源索引
| 序号 | flash_attn | PyTorch | CUDA | Python | 文件名 | 网盘链接 |
|---|---|---|---|---|---|---|
| 1 | 2.7.4 | 2.6 | 12.4 | 3.10 | flash_attn-2.7.4+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/79e06692f2f5 |
| 2 | 2.7.4 | 2.6 | 12.4 | 3.11 | flash_attn-2.7.4+cu124torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/447f61607842 |
| 3 | 2.7.4 | 2.6 | 12.4 | 3.12 | flash_attn-2.7.4+cu124torch2.6.0cxx11abiFALSE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/a4f9a14058cd |
| 4 | 2.7.4 | 2.6 | 12.6 | 3.10 | flash_attn-2.7.4+cu126torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/955572a4a5e1 |
| 5 | 2.7.4 | 2.6 | 12.6 | 3.11 | flash_attn-2.7.4+cu126torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/7e0feb5735b1 |
| 6 | 2.7.4 | 2.6 | 12.6 | 3.12 | flash_attn-2.7.4+cu126torch2.6.0cxx11abiFALSE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/d06dfd218d08 |
| 7 | 2.7.4 | 2.7 | 12.8 | 3.10 | flash_attn-2.7.4+cu128torch2.7-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/4725725c8cdf |
| 8 | 2.7.4 | 2.7 | 12.8 | 3.11 | flash_attn-2.7.4+cu128torch2.7-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/a12589e31ab9 |
| 9 | 2.7.4 | 2.7 | 12.8 | 3.12 | flash_attn-2.7.4+cu128torch2.7-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/7f6217d6c268 |
| 10 | 2.7.4 | 2.8 | 12.8 | 3.10 | flash_attn-2.7.4+cu128torch2.8-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/1b34f744d374 |
| 11 | 2.7.4 | 2.8 | 12.8 | 3.11 | flash_attn-2.7.4+cu128torch2.8-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/7f6ff7ad9409 |
| 12 | 2.7.4 | 2.8 | 12.8 | 3.12 | flash_attn-2.7.4+cu128torch2.8-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/145736aa6170 |
| 13 | 2.7.4. | 2.7 | 12.8 | 3.10 | flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/73b92c49fed9 |
| 14 | 2.7.4. | 2.7 | 12.8 | 3.11 | flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/9a628020804c |
| 15 | 2.7.4. | 2.7 | 12.8 | 3.12 | flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/e5d4dbd2ae14 |
| 16 | 2.7.4. | 2.8 | 12.8 | 3.10 | flash_attn-2.7.4.post1+cu128torch2.8.0cxx11abiTRUE-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/d17c1a56b36b |
| 17 | 2.7.4. | 2.8 | 12.8 | 3.12 | flash_attn-2.7.4.post1+cu128torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/4539bef8e545 |
| 18 | 2.8.0. | 2.8 | 12.8 | 3.12 | flash_attn-2.8.0.post2+cu128torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/b14f41ddf764 |
| 19 | 2.8.1 | 2.8 | 12.8 | 3.12 | flash_attn-2.8.1+cu128torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/3566fe7ff093 |
| 20 | 2.8.2 | 2.6 | 12.4 | 3.11 | flash_attn-2.8.2+cu124torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/0eda056f580f |
| 21 | 2.8.2 | 2.6 | 12.4 | 3.12 | flash_attn-2.8.2+cu124torch2.6.0cxx11abiFALSE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/1593813b5973 |
| 22 | 2.8.2 | 2.7 | 12.8 | 3.10 | flash_attn-2.8.2+cu128torch2.7-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/369b6a0bb20e |
| 23 | 2.8.2 | 2.7 | 12.8 | 3.11 | flash_attn-2.8.2+cu128torch2.7-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/997351e8d6c8 |
| 24 | 2.8.2 | 2.7 | 12.8 | 3.12 | flash_attn-2.8.2+cu128torch2.7-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/4dff18578596 |
| 25 | 2.8.2 | 2.8 | 12.8 | 3.10 | flash_attn-2.8.2+cu128torch2.8-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/0e8ce8fa60f6 |
| 26 | 2.8.2 | 2.8 | 12.8 | 3.11 | flash_attn-2.8.2+cu128torch2.8-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/2b91567ce7d6 |
| 27 | 2.8.2 | 2.8 | 12.8 | 3.12 | flash_attn-2.8.2+cu128torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/197ac863d274 |
| 28 | 2.8.2 | 2.9 | 12.8 | 3.12 | flash_attn-2.8.2+cu128torch2.9.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/acc070a95ec6 |
| 29 | 2.8.3 | 2.7 | 12.4 | 3.12 | flash_attn-2.8.3+cu124torch2.7-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/757367087fbb |
| 30 | 2.8.3 | 2.8 | 12.4 | 3.12 | flash_attn-2.8.3+cu124torch2.8-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/20f36da446e1 |
| 31 | 2.8.3 | 2.7 | 12.6 | 3.12 | flash_attn-2.8.3+cu126torch2.7-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/bcbaefb649f6 |
| 32 | 2.8.3 | 2.8 | 12.6 | 3.12 | flash_attn-2.8.3+cu126torch2.8-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/16e4495e51ae |
| 33 | 2.8.3 | 2.9 | 12.6 | 3.10 | flash_attn-2.8.3+cu126torch2.9-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/8307791a9fa3 |
| 34 | 2.8.3 | 2.9 | 12.6 | 3.11 | flash_attn-2.8.3+cu126torch2.9-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/69b364772c0f |
| 35 | 2.8.3 | 2.9 | 12.6 | 3.13 | flash_attn-2.8.3+cu126torch2.9-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/f5f96f527b23 |
| 36 | 2.8.3 | 2.10 | 12.6 | 3.12 | flash_attn-2.8.3+cu126torch2.10-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/4733e80e99e5 |
| 37 | 2.8.3 | 2.6 | 12.8 | 3.12 | flash_attn-2.8.3+cu128torch2.6-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/5b7b1cb750d0 |
| 38 | 2.8.3 | 2.8 | 12.8 | 3.12 | flash_attn-2.8.3+cu128torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/34feb36b8a51 |
| 39 | 2.8.3 | 2.9 | 12.8 | 3.12 | flash_attn-2.8.3+cu128torch2.9.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/e8c87e8d8d7e |
| 40 | 2.8.3 | 2.9 | 12.8 | 3.13 | flash_attn-2.8.3+cu128torch2.9.1cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/169390438a3b |
| 41 | 2.8.3 | 2.10 | 12.8 | 3.13 | flash_attn-2.8.3+cu128torch2.10.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/6807edd7dd73 |
| 42 | 2.8.3 | 2.11 | 12.8 | 3.10 | flash_attn-2.8.3+cu128torch2.11-cp310-cp310-win_amd64.whl | https://pan.quark.cn/s/3759c83073fb |
| 43 | 2.8.3 | 2.9 | 12.9 | 3.13 | flash_attn-2.8.3+cu129torch2.9.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/a050e77f1996 |
| 44 | 2.8.3 | 2.9 | 13.0 | 3.12 | flash_attn-2.8.3+cu130torch2.9.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/6951c4ab6a15 |
| 45 | 2.8.3 | 2.9 | 13.0 | 3.13 | flash_attn-2.8.3+cu130torch2.9.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/7d69ba00aca7 |
| 46 | 2.8.3 | 2.9 | 13.0 | 3.12 | flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/54ea1122a3b7 |
| 47 | 2.8.3 | 2.9 | 13.0 | 3.13 | flash_attn-2.8.3+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/e4f4c5551fff |
| 48 | 2.8.3 | 2.10 | 13.0 | 3.11 | flash_attn-2.8.3+cu130torch2.10-cp311-cp311-win_amd64.whl | https://pan.quark.cn/s/dac03661fcb6 |
| 49 | 2.8.3 | 2.10 | 13.0 | 3.12 | flash_attn-2.8.3+cu130torch2.10.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/c31b7dc54af2 |
| 50 | 2.8.3 | 2.10 | 13.0 | 3.13 | flash_attn-2.8.3+cu130torch2.10.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/18263043e521 |
| 51 | 2.8.3 | 2.11 | 13.0 | 3.13 | flash_attn-2.8.3+cu130torch2.11.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/0d0d573caff8 |
| 52 | 2.8.3 | 2.11 | 13.0 | 3.12 | flash_attn-2.8.3+d20260120.cu130torch2.11.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/b3e81a7d184f |
| 53 | 2.8.3 | 2.10 | 13.0 | 3.12 | flash_attn-2.8.3+d20260121.cu130torch2.10.0cxx11abiTRUE-cp312-cp312-win_amd64.whl | https://pan.quark.cn/s/25da4693f966 |
| 54 | 2.8.3 | 2.10 | 13.0 | 3.13 | flash_attn-2.8.3+d20260121.cu130torch2.10.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/3136f07bce67 |
| 55 | 2.8.4 | 2.11 | 13.0 | 3.13 | flash_attn-2.8.4+d20260328cu130torch2.11.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/cac2a79384e4 |
| 56 | 2.8.4 | 2.11 | 13.0 | 3.14 | flash_attn-2.8.4+d20260328cu130torch2.11.0cxx11abiTRUE-cp314-cp314-win_amd64.whl | https://pan.quark.cn/s/f4a450523df4 |
| 57 | 2.8.4 | 2.12 | 13.0 | 3.13 | flash_attn-2.8.4+d20260328cu130torch2.12.0cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/4f0df6210dd7 |
| 58 | 2.8.4 | 2.12 | 13.0 | 3.14 | flash_attn-2.8.4+d20260328cu130torch2.12.0cxx11abiTRUE-cp314-cp314-win_amd64.whl | https://pan.quark.cn/s/bfaea1a69968 |

5714

被折叠的 条评论
为什么被折叠?



