一、今日阅读论文
《Attention Is All You Need》
二、这篇论文解决了什么问题?
传统的 RNN 在处理序列时,需要沿着序列位置逐步进行计算,后一个状态必须依赖前一个状态的信息。因此,这种串行化的计算方式天然不适合并行计算,导致模型训练速度较慢。
更严重的是,当序列长度较长时,内存会限制批处理(Batch Size)的大小,因此无法仅通过增大 Batch Size 来进一步提升训练效率。虽然此前已经有很多工作尝试优化 RNN 的训练效率和模型性能,但“必须按顺序计算”这一根本问题始终没有得到解决。
在 Transformer 提出之前,Attention 机制虽然已经存在,但大多只是作为 RNN 的辅助模块使用。
这篇论文提出了完全基于 Attention 机制的 Transformer 架构,彻底舍弃了 RNN 与 CNN 等循环或卷积结构。Transformer 在建模两个位置之间的全局依赖关系时,不需要像 RNN 一样逐步传递信息,而是可以直接建立任意位置之间的联系,因此能够实现高度并行化计算,大幅提升训练效率。同时,实验结果表明,其模型性能相比传统方法也有明显提升。
三、它使用了什么方法?
1)使用 Attention 完全替代 RNN
为了摆脱 RNN 顺序计算带来的训练瓶颈,论文使用 Attention 机制完全替代循环结构,使模型能够并行处理整个序列,从而显著提高训练速度。
2)提出 Self-Attention(自注意力机制)
针对长距离依赖难以建模的问题,论文提出了 Self-Attention 机制。
在 Self-Attention 中,序列中的每一个位置都可以直接与其他任意位置建立联系,因此模型能够更容易捕获全局语义信息,而不需要像 RNN 那样逐步传播。
3)提出 Multi-Head Attention(多头注意力机制)
为了增强模型的表达能力,论文提出了多头注意力机制。
不同的 Attention Head 可以在不同的特征子


3141

被折叠的 条评论
为什么被折叠?



