《Attention Is All You Need》阅读笔记：Transformer 如何用 Attention 取代 RNN

最新推荐文章于 2026-06-20 20:55:32 发布

原创

最新推荐文章于 2026-06-20 20:55:32 发布 · 421 阅读

·

7

·

标签

#笔记 #transformer #rnn

一、今日阅读论文

《Attention Is All You Need》

二、这篇论文解决了什么问题？

传统的 RNN 在处理序列时，需要沿着序列位置逐步进行计算，后一个状态必须依赖前一个状态的信息。因此，这种串行化的计算方式天然不适合并行计算，导致模型训练速度较慢。

更严重的是，当序列长度较长时，内存会限制批处理（Batch Size）的大小，因此无法仅通过增大 Batch Size 来进一步提升训练效率。虽然此前已经有很多工作尝试优化 RNN 的训练效率和模型性能，但“必须按顺序计算”这一根本问题始终没有得到解决。

在 Transformer 提出之前，Attention 机制虽然已经存在，但大多只是作为 RNN 的辅助模块使用。

这篇论文提出了完全基于 Attention 机制的 Transformer 架构，彻底舍弃了 RNN 与 CNN 等循环或卷积结构。Transformer 在建模两个位置之间的全局依赖关系时，不需要像 RNN 一样逐步传递信息，而是可以直接建立任意位置之间的联系，因此能够实现高度并行化计算，大幅提升训练效率。同时，实验结果表明，其模型性能相比传统方法也有明显提升。

三、它使用了什么方法？

1）使用 Attention 完全替代 RNN

为了摆脱 RNN 顺序计算带来的训练瓶颈，论文使用 Attention 机制完全替代循环结构，使模型能够并行处理整个序列，从而显著提高训练速度。

2）提出 Self-Attention（自注意力机制）

针对长距离依赖难以建模的问题，论文提出了 Self-Attention 机制。

在 Self-Attention 中，序列中的每一个位置都可以直接与其他任意位置建立联系，因此模型能够更容易捕获全局语义信息，而不需要像 RNN 那样逐步传播。

3）提出 Multi-Head Attention（多头注意力机制）

为了增强模型的表达能力，论文提出了多头注意力机制。

不同的 Attention Head 可以在不同的特征子

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。