《Attention Is All You Need》阅读笔记:Transformer 如何用 Attention 取代 RNN

一、今日阅读论文

《Attention Is All You Need》


二、这篇论文解决了什么问题?

传统的 RNN 在处理序列时,需要沿着序列位置逐步进行计算,后一个状态必须依赖前一个状态的信息。因此,这种串行化的计算方式天然不适合并行计算,导致模型训练速度较慢。

更严重的是,当序列长度较长时,内存会限制批处理(Batch Size)的大小,因此无法仅通过增大 Batch Size 来进一步提升训练效率。虽然此前已经有很多工作尝试优化 RNN 的训练效率和模型性能,但“必须按顺序计算”这一根本问题始终没有得到解决。

在 Transformer 提出之前,Attention 机制虽然已经存在,但大多只是作为 RNN 的辅助模块使用。

这篇论文提出了完全基于 Attention 机制的 Transformer 架构,彻底舍弃了 RNN 与 CNN 等循环或卷积结构。Transformer 在建模两个位置之间的全局依赖关系时,不需要像 RNN 一样逐步传递信息,而是可以直接建立任意位置之间的联系,因此能够实现高度并行化计算,大幅提升训练效率。同时,实验结果表明,其模型性能相比传统方法也有明显提升。


三、它使用了什么方法?

1)使用 Attention 完全替代 RNN

为了摆脱 RNN 顺序计算带来的训练瓶颈,论文使用 Attention 机制完全替代循环结构,使模型能够并行处理整个序列,从而显著提高训练速度。

2)提出 Self-Attention(自注意力机制)

针对长距离依赖难以建模的问题,论文提出了 Self-Attention 机制。

在 Self-Attention 中,序列中的每一个位置都可以直接与其他任意位置建立联系,因此模型能够更容易捕获全局语义信息,而不需要像 RNN 那样逐步传播。

3)提出 Multi-Head Attention(多头注意力机制)

为了增强模型的表达能力,论文提出了多头注意力机制。

不同的 Attention Head 可以在不同的特征子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值