NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记

最新推荐文章于 2025-05-13 17:00:00 发布

原创

最新推荐文章于 2025-05-13 17:00:00 发布 · 6.5k 阅读

本文解析了NLP经典论文《Attention is All You Need》中的关键概念，包括Self-Attention、Multi-HeadAttention及Transformer模型结构。介绍了Attention在编码器和解码器中的应用，涉及Input Embedding、Positional Encoding和mask处理。重点讲解了Transformer如何利用并行计算加速，以及如何通过Position-wise Feed-Forward Networks和Softmax实现序列建模。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记

论文
介绍
- 特点
模型结构
文章部分翻译
相关视频
相关的笔记
相关代码
- pytorch
- tensorflow
- - keras
pytorch API:
tensorflow API

论文

NLP论文笔记合集（持续更新）

原论文：《Attention is All you Need》

最早的提出attention模型的文章：NLP经典论文：最早的提出attention模型的文章笔记
提出输入embedding和输出embedding共享的文章：NLP论文：Weight tying 笔记

介绍

2017年6月发表的文章，Attention 通常指 Self-Attention，Multi-Head Attention就是使用了几个并行的Self-Attention，相当于多通道。它不是由这篇文章最早提出，但由这篇文章发扬光大的。

Transformer 通常指这篇文章提出的模型结构，由 encoder 和decoder组成。

特点

RNN结构能够捕获时序信息，但不能并行计算；CNN结构能够并行，但不能捕获时序信息。Transformer使用 Attention 结构代替 RNN类结构，实现了运算的并行，加速了模型，同时引入 positional encoding 来引入时序信息。

模型结构

整体结构

在这里插入图片描述

输入

$\mathbf{x}=(x_1,…,x_n)$ ， $x_i$ 为one-hot表示的一个中文词， $\mathbf{x}$ 为中文的一个句子。

输出

$\mathbf{y}=(y_1,…,y_m)$ ， $y_i$ 为one-hot表示的一个英文词， $\mathbf{x}$ 为英文的一个句子。

Attention结构

该文章中，Attention 指的是Scaled Dot-Product Attention。
在这里插入图片描述
MatMul 是矩阵相乘。Mask（opt.）是可选的mask操作。矩阵 $Q, K, V$ 分别代表query，key和value， $Q,K\in R^{d_k\times n},V\in R^{d_v\times n}$ ， $n$ 为输入句子的长度，即所含词的个数。

假设输入为 $s_x=(s_1,...,s_n),s_i\in R^{d_{emb}\times 1}$ ， $d_{emb}$ 为embedding的维度。经过矩阵变换：
$Q=W_Qs_x=(q_1,...,q_n)\\ K=W_Ks_x=(k_1,...,k_n)\\ V=W_Vs_x=(v_1,...,v_n)$ 其中， $W_Q,W_K\in R^{d_k\times d_{emb}},W_V\in R^{d_v\times d_{emb}}$ 。

没有mask的情况

attention可以比喻成做阅读理解， $Q$ 为问题， $K$ 为句子的意思， $V$ 为句子。 $Q$ 和 $K$ 的Dot-Product为：
$K^\top Q= \begin{bmatrix} {k_1^\top q_1}&{k_1^\top q_2}&{k_1^\top q_3}&{\cdots}&{k_1^\top q_n}\\ {k_2^\top q_1}&{k_2^\top q_2}&{k_2^\top q_3}&{\cdots}&{k_2^\top q_n}\\ {k_3^\top q_1}&{k_3^\top q_2}&{k_3^\top q_3}&{\cdots}&{k_3^\top q_n}\\ {\vdots}&{\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {k_n^\top q_1}&{k_n^\top q_2}&k_n^\top q_3&{\cdots}&k_n^\top q_n\\ \end{bmatrix}= \begin{bmatrix} {a_{11}}&{a_{12}}&{a_{13}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{a_{23}}&{\cdots}&{a_{2n}}\\ {a_{31}}&{a_{32}}&{a_{33}}&{\cdots}&{a_{3n}}\\ {\vdots}&{\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{n1}}&{a_{n2}}&a_{n3}&{\cdots}&a_{nn}\\ \end{bmatrix}$
$K^\top q_i=(k_1^\top q_i,...,k_n^\top q_i)^\top=(a_{1i},...,a_{ni})^\top=a_{:,i}$ 代表用第 $i$ 个词作为query，去匹配每一个key，得到每一个句子作为答案的分值，将分值 $a_{:,i}$ 除以 $\sqrt{d_k}$ 后经过softmax得到比例 $\alpha_{:,i}$ ，按照比例抄写每一个句子去构成第 $i$ 个query的答案 $V\alpha_{:,i}=\begin{bmatrix} v_1&v_2&v_3&\cdots&v_n \end{bmatrix}\begin{bmatrix} \alpha_{1,i}\\\alpha_{2,i}\\\alpha_{3,i}\\\cdots\\\alpha_{n,i} \end{bmatrix}=\sum_{j=1}^n\alpha_{j,i}v_j$ 。

因此Attention函数为：
$Attention(Q,K,V)=Vsoftmax(\frac{K^\top Q}{\sqrt{d_k}})=\begin{bmatrix} v_1&v_2&v_3&\cdots&v_n \end{bmatrix}\begin{bmatrix} {\alpha_{11}}&{\alpha_{12}}&{\alpha_{13}}&{\cdots}&{\alpha_{1n}}\\ {\alpha_{21}}&{\alpha_{22}}&{\alpha_{23}}&{\cdots}&{\alpha_{2n}}\\ {\alpha_{31}}&{\alpha_{32}}&{\alpha_{33}}&{\cdots}&{\alpha_{3n}}\\ {\vdots}&{\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {\alpha_{n1}}&{\alpha_{n2}}&\alpha_{n3}&{\cdots}&\alpha_{nn}\\ \end{bmatrix}$