【动手学习pytorch笔记】33.Attention实现

最新推荐文章于 2026-02-05 15:06:51 发布

原创

最新推荐文章于 2026-02-05 15:06:51 发布 · 4.7k 阅读

标签

#pytorch #学习 #深度学习 #nlp

收录于

本文介绍了两种注意力机制——加性注意力和点积注意力在深度学习中的实现细节，包括掩码softmax、线性变换和权重计算过程。通过实例演示，展示了如何在不同情境下运用这些机制来处理不同时长的序列数据。

Attention实现

import math
import torch
from torch import nn
from d2l import torch as d2l

带掩码的softmax

有些query是不应该看到后面的key的

#@save
def masked_softmax(X, valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    # X:3D张量，valid_lens:1D或2D张量
    if valid_lens is None:
        return nn.functional.softmax(X, dim=-1)
    else:
        shape = X.shape
        if valid_lens.dim() == 1:
            valid_lens = torch.repeat_interleave(valid_lens, shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        # 最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = d2l.sequence_mask(X.reshape(-1, shape[-1]), valid_lens,
                              value=-1e6)
        return nn.functional.softmax(X.reshape(shape), dim=-1)

测试一下

例1

masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3]))

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YMK_0

关注关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

理解神经网络的注意力机制（Attention）及PyTorch 实现

DT程序员的博客

05-16

1626

介绍理解神经网络的注意力机制（Attention）的原理，以及self PyTorch 代码的实现

1 条评论您还未登录，请先登录后发表或查看评论

pytorch实现attention_Self-Attention手动推导及实现

weixin_39923806的博客

11-27

2572

一、前言问：transformer模型的众多派生BERT，RoBERTa，ALBERT，SpanBERT，DistilBERT，SesameBERT，SemBERT，SciBERT，BioBERT，MobileBERT，TinyBERT和CamemBERT有什么共同点？答：Self-attention//Transformer架构使用Transformer架构对NLP任务建模，避免使用递归神经网络...

PyTorch——自注意力（self-attention）机制实现（代码详解）

热门推荐

beilizhang的博客

03-28

11万+

参考链接 https://www.bilibili.com/video/BV1JE411g7XF?p=54 https://arxiv.org/abs/1706.03762 https://blog.csdn.net/qq_36653505/article/details/83375160 简述自注意力机制（self-attention） self-attention可以视为一个特征提取层，给定输入特征a1,a2,⋅⋅⋅ana^{1},a^{2},\cdot \cdot \cdot a^{n}a1,a2

Attention及其pytorch代码实现

m0_50896529的博客

11-09

1万+

基于RNN的Seq2Seq的基本假设：原始序列的最后一个隐含状态（一个向量）包含了该序列的全部信息。（这显然是不合理的） Seg2Seg问题：记忆长序列能力不足解决：当要生成一个目标语言单词的时候，不光考虑前一个时刻的状态和已经生成的单词，还要考虑当前要生成的单词和源句子中的哪些单词更加相关，即更关注源句子中的哪些词，这种做法就叫做注意力机制（Attention） Attention Luong等人在2015年发布的Effective Approaches to Attention-bas.

Pytorch：Attention理解和代码实现

m0_63997099的博客

04-27

6215

文章目录一、Attention原理核心点1、Self-Attentiona.核心原始形态b.self-Attention使用相同的矩阵是否可行？2、常见的注意力机制1. 自注意力机制（Self-Attention）2. 多头注意力（Multi-Head Attention）3. 序列到序列的注意力（Seq2Seq Attention）4. 点积注意力（Dot-Product Attention）5. 加性注意力（Additive Attention）或串联注意力（Concat Attention）6. 卷积

Attention机制：self_attention的原理及代码实现

奥古斯都

05-15

2104

attention机制的核心思想就是想让我们关注我们需要关注的东西，而把不重要的东西忽略掉，如果我们在说一句话或者一段文字里有的文字描述只是为了核心思想做铺垫，而attention机制的思想就是说我们根本不care铺垫的内容，我们只想把最核心的东西突出，因为核心的观点是对这段文字有最大的贡献值。那么attention机制开始的时候是在NLP领域有比较广泛的应用，再后来在图像视觉的领域也有极大的应用。比如我们在进行分类的时候我们只想关注目标而忽略背景，这个思想和attention的核心思想就对的上了，所以在视

扩散模型中的注意力机制实现详解：从Self-Attention到Cross-Attention的代码解析

最新发布

2401_85325557的博客

02-05

1042

本文详细介绍了diffusers库中U-Net的注意力机制实现，包括UNet2DConditionModel类和Transformer2DModel核心单元。文章解析了Self-Attention和Cross-Attention两种注意力的代码实现，展示了query、key、value的计算过程及其数学原理，帮助读者理解扩散模型如何通过注意力机制捕捉图像内部关联并融合文本条件。

【PyTorch实战】Attention U-Net详解：从零到一，手把手带你实现图像分割注意力机制

阿旭的博客

09-02

2200

【PyTorch实战】Attention U-Net详解：从零到一，手把手带你实现图像分割注意力机制

Flash-Attention代码调用尝试

10-10

9582

快速实现flash-attention调用

讲解PyTorch Attention 注意力

牛肉胡辣汤

12-29

1242

在深度学习中，注意力机制（Attention Mechanism）被广泛应用于各种任务，如自然语言处理、计算机视觉等。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和库，方便我们实现和使用注意力模型。在本篇技术博客中，我们将介绍PyTorch中的注意力机制及其使用方法。注意力机制是一种模仿人类视觉系统的思维方式，通过对输入信息中的关键部分进行集中处理，从而提高模型对重要信息的关注度。在深度学习中，注意力机制通常被用于选择输入中最相关的部分，从而提高模型的性能和表现力。

什么是Attention机制以及Pytorch如何使用

qq_43391414的博客

10-09

6345

文章目录前言注意力概况标准注意力变种注意力QKV 前言看了网上大部分人做的，都是说一个比较长的项目（特别是机器翻译的多）。其实没有必要，很多人并不是想看一个大项目，只是想看看怎么用，并把Attention机制用到自己的任意一个项目中。下面来介绍之。注意力概况首先告诉大家，注意力这个词本身是一个非常高屋建瓴的词，其作用于两个东西，然后计算他们的注意力。两个东西是什么?随便你，比如可以是向量，可以是矩阵，可以是你想要的一切，不过，计算机中也只有向量和矩阵，因为计算机只能表示数字。一般是向量。有了两个

pytorch中attention的两种实现方式

wi162yyxq的博客

12-18

2万+

class AttnDecoderRNN(nn.Module): def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH): super(AttnDecoderRNN, self).__init__() self.hidden_size = hi...

超平实版Pytorch Self-Attention: 参数详解(尤其是mask)(使用nn.MultiheadAttention)

狗狗狗大王的博客

06-17

4万+

目录Self-Attention的结构图forward输入中的query、key、valueforward的输出实例化一个nn.MultiheadAttention进行forward操作关于maskReference Self-Attention的结构图本文侧重于Pytorch中对self-attention的具体实践，具体原理不作大量说明，self-attention的具体结构请参照下图。 (图中为输出第二项attention output的情况,k与q为key、query的缩写) 本文中将使用Pyt

pytorch—实现各种注意力

m0_47005029的博客

07-08

6522

所谓Attention机制，便是聚焦于局部信息的机制，比如图像中的某一个图像区域。随着任务的变化，注意力区域往往会发生变化。面对上面这样的一张图，如果你只是从整体来看，只看到了很多人头，但是你拉近一个一个仔细看就了不得了，都是天才科学家。图中除了人脸之外的信息其实都是无用的，也做不了什么任务，Attention机制便是要找到这些最有用的信息，可以想见最简单的场景就是从照片中检测人脸了。注意力机制的核心重点就是让网络关注到它更需要关注的地方。

PyTorch——实现自注意力机制（self-attention）

weixin_53598445的博客

05-27

2万+

文章目录1 原理简述 1 原理简述 Self-Attention Layer 一次检查同一句子中的所有单词的注意力，这使得它成为一个简单的矩阵计算，并且能够在计算单元上并行计算。此外，Self-Attention Layer 可以使用下面提到的 Multi-Head 架构来拓宽视野，也就是多头注意力机制。Self-Attention Layer 基本结构如下：对于每个输入 x\boldsymbol{x}x，首先经过 Embedding 层对每个输入进行编码得到 a1,a2,a3,a4\boldsy

Pytorch之经典神经网络Attention(一) —— Attention()

hxxjxw的博客

05-21

7392

预测一个正弦曲线的下一段的波形例如输入[0,49]的值，要求预测[1,50]的值我们这是数字数据，就不需要embedding了，所以word_vec也就是1 batch也就是1，没有多个 word_num即sequence设置为50，就是1次喂50个点的数据所以，输入数据的shape是[1,50,1]，这里采用的是第②种表达方式 start是开始的点 import numpy as np import torch import torch....

解码注意力Attention机制：从技术解析到PyTorch实战

TechLead

09-02

5082

在本文中，我们深入探讨了注意力机制的理论基础和实际应用。从其历史发展和基础定义，到具体的数学模型，再到其在自然语言处理和计算机视觉等多个人工智能子领域的应用实例，本文为您提供了一个全面且深入的视角。通过Python和PyTorch代码示例，我们还展示了如何实现这一先进的机制。

pytorch注意力机制

一个学长的博客

04-14

3959

最近看了一篇大佬的注意力机制的文章然后自己花了一上午的时间把按照大佬的图把大佬提到的注意力机制都复现了一遍，大佬有一些写的复杂的网络我按照自己的理解写了几个简单的版本接下来就放出我写的代码。顺便从大佬手里盗走一些图片，等我有时间一起进行替换，在此特别鸣谢这位大佬。

神经网络的注意力机制（Attention）

coffee_cream的博客

10-16

2万+

1 注意力的简介注意力机制也称为：“神经网络的注意力”，或者更简单的：“注意力”。人脑在工作时，其实是由一定的注意力的，比如我们在浏览器上搜索时，大部分的注意力都集中在搜索结果的左上角，这说明大脑在处理信号的时候是有一定权重划分的，而注意力机制的提出正是模仿了大脑的这种特性。神经网络的注意力就是说，神经网络具有将注意力集中到一部分输入（或特征）的能力。（1）为什么引入注意力机制呢？计算能力的限制：目前计算能力依然是限制神经网络发展的瓶颈，当输入的信息过多时，模型也会变得更复杂，通过引入注意力，可

Attention 扫盲：注意力机制及其 PyTorch 应用实现

fengdu78的博客

01-05

5489

点击上方“MLNLP”，选择“星标”公众号重磅干货，第一时间送达来自 |知乎作者 |Lucas地址 | https://zhuanlan.zhihu.com/p/88376673专栏...