当Sinkhorn算法遇见Top-k：5分钟看懂SOFT算子的数学之美

最新推荐文章于 2026-06-30 23:32:08 发布

原创

最新推荐文章于 2026-06-30 23:32:08 发布 · 411 阅读

收录于

当前文章被以下社区和专栏收录：

SOFT Top-k：当最优传输理论赋予深度学习以优雅的可微性

在深度学习的浩瀚宇宙中，Top-k操作如同恒星般存在于各类关键场景——从推荐系统的商品筛选到自然语言处理的束搜索，再到图像分类的k近邻算法。然而这个看似简单的操作却长期困扰着研究者：传统实现方式带来的不可微特性，如同横亘在端到端训练道路上的一道深渊。当我们试图将排序、选择这类离散操作嵌入神经网络时，标准Top-k的硬性决策边界会彻底阻断梯度流动。

1. 传统Top-k的微分困境与破局思路

1.1 不可微的本质剖析

标准Top-k操作本质上是一个二值选择器，将输入向量转换为由0和1组成的指示向量。以最简单的Top-1场景为例：

def hard_top1(x):
    return [1 if xi == max(x) else 0 for xi in x]

这种实现存在两个根本性问题：

算法层面的不可导：基于排序或快速选择的实现涉及大量不可导的比较和交换操作
数学本质的不连续：输出关于输入的导数要么为零（非边界区域），要么不存在（决策边界）

1.2 现有解决方案的局限

常见的替代方案往往带来新的问题：

方法	优点	缺点
Softmax加权	完全可微	无法精确控制k值
Gumbel-Softmax	近似离散采样	需要温度调参
两阶段训练	简单直接	目标不一致

标签

#深度学习 #SOFT Top-k #最优传输

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fire9

关注关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

一起探讨：如何让Top-k操作变得丝滑顺滑？

步子哥的博客

10-31

1272

我们可以把最优传输想象成这样一个问题：你有两座城市A和B，分别生产了若干种产品。你的任务是把A的产品运输到B，但需要最小化运输成本。通过解出这个“运输计划”，你能得到一个最优的运输方案。而在Top-k操作中，我们把分数看作城市A的产品，把{0, 1}（即是否属于Top-k）看作城市B的产品。通过计算最优的“运输成本”，我们就能得到一个光滑的Top-k近似解。

参与评论您还未登录，请先登录后发表或查看评论

【深度学习】SOFT Top-k：用最优传输解锁可微的 Top-k 操作

欢迎来到我的CSDN个人博客主页！

07-28

1439

本文介绍了一种在论文Differentiable Top-k Operator with Optimal Transport中提出的名为SOFT Top-k的可微算子，通过最优传输理论解决了传统Top-k操作不可微的问题。该方法将Top-k选择转化为熵正则化的最优传输问题，利用Sinkhorn算法实现平滑近似，并采用隐式微分高效计算梯度。实验表明，SOFT Top-k在k-NN分类、机器翻译束搜索和注意力机制等任务中显著提升了性能，为端到端训练Top-k相关模型提供了新思路。

Softmax后传：寻找Top-K的光滑近似

Paper weekly

09-20

1168

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络Softmax，顾名思义是“soft 的 max”，是算子（准确来说是）的光滑近似，它通过指数归一化将任意向量转化为分量非负且和为1的新向量，并允许我们通过温度参数来调节它与（的 one hot 形式）的近似程度。除了指数归一化外，我们此前在《通向概率分布之路：盘点Softmax及其替代...

当Top-k遇到深度学习

AITIME_HY的博客

01-05

5806

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！top-k操作（即从分数集合中找到k个最大或最小元素）是一个重要的机器学习模型组件，被广泛用于信息检索和数据挖掘中。但是，如果t...

用于强化推荐系统的Top-K非政策修正方法 - 论文翻译

yifu0121

10-24

1428

原文链接：https://arxiv.org/pdf/1812.02353.pdf 摘要：工业推荐器系统处理非常大的动作空间–数以百万计的项目需要被推荐。而且，他们需要为数十亿用户提供服务，这些用户在任何时间都是不一样的情况，使用户状态空间变得非常复杂。幸运的是，数量巨大已记录的隐式反馈（例如，用户点击次数，停留时间）可供我们训练模型来学习。但是从记录的反馈中学习可能会因为数据的原因学习到一......

R1周：Pytorch｜RNN-心脏病预测

2301_80985954的博客

06-26

281

什么是循环神经网络（RNN）？前面学过的CNN（卷积神经网络）擅长处理图像这种空间结构数据，但它没法处理文本中这种先后的联系。比如，看一句话我今天心情好，CNN可以提取每个字的特征，但它不知道"今天"在"心情"前面，也不知道"我"是这句话的主语。而RNN的核心思想是：网络在处理当前时刻的输入时，会同时记住上一时刻的状态，然后把两者结合起来做判断。这次做实验让我对RNN有了简单理解。简单说，RNN 就是一个会记事的神经网络。

计算机毕业设计之基于深度学习的棉花叶片病虫害检测与识别

2601_96234462的博客

06-29

211

本研究开发了一套基于YOLOv11深度学习模型的棉花叶片病虫害智能检测系统。该系统通过构建大规模病虫害图像数据库进行模型训练，实现了对棉花叶片病虫害的高精度识别和实时检测，准确率达95%以上。系统采用模块化设计，包含数据采集、模型训练、实时检测和结果展示四大核心功能，支持用户上传照片获取病虫害类型、位置及防治建议。研究成果为农业病虫害防治提供了智能化解决方案，未来计划拓展多作物识别功能，结合物联网技术构建智能农业服务平台，推动农业生产现代化进程。该系统有效解决了传统人工检测效率低、误差大的问题，具有显著应用

深度学习领域全程指导

y1234567891001的博客

06-27

230

深度学习方向需要指导的朋友请私信！！！

【从零开始大模型开发与微调:基于PyTorch与ChatGLM】(一学就会的深度学习基础算法详解)

承渊政道的博客

06-27

1818

本文介绍了反向传播神经网络(BP神经网络)的发展历程与基本原理。文章首先回顾了人工神经网络的历史沿革，从1930年的ADALINE网络到1980年代BP算法的提出，重点阐述了BP神经网络的核心思想及其在深度学习中的重要性。BP神经网络通过误差反向传播和梯度下降优化参数，由输入层、隐含层和输出层组成，能够有效解决非线性问题。文中还展示了BP神经网络的结构示意图，并强调了其在模式识别、函数逼近等领域的广泛应用。作为深度学习的基础，BP神经网络至今仍是重要的研究方向。

基于CNN的R-CNN 到Fast R-CNN 再到 Faster R-CNN

追赶时代的博客

06-26

380

本文系统梳理了R-CNN系列目标检测算法的技术演进历程，从基础CNN到前沿DeformableDETR，揭示了计算机视觉领域的关键突破与设计思想。主要内容包括：基础架构演进 CNN作为特征提取器 R-CNN开创性工作（选择性搜索+SVM） Fast R-CNN引入RoI池化 Faster R-CNN提出RPN网络后续Mask R-CNN等扩展任务边界核心技术创新特征共享机制（计算效率提升2000倍）端到端训练范式多尺度处理（FPN特征金字塔）几何形变建模（可变形卷积）前沿发展 Deforma

YOLO实例分割工业圆形仪表指针读数识别数据集｜电力电表电流电压表深度学习视觉实战仓库

2403_88545703的博客

06-29

335

YOLO实例分割工业圆形仪表指针读数识别数据集｜电力电表电流电压表深度学习视觉实战仓库10472期

RNN-心脏病预测

mioling3o的博客

06-26

本周正式跨入序列数据处理的领域，主要围绕循环神经网络（RNN）展开了深度的理论学习与代码实战。与之前处理静态图像的 CNN 不同，本周学习的 RNN 核心在于其特有的隐藏状态（Hidden State）。它能够将前一个时间步的信息传递给下一个时间步，这使得网络具备了理解上下文因果关系的能力。在实战中，我们掌握了如何将传统的二维表格数据（心血管生理指标）转化为 RNN 所需的三维张量格式 (样本数, 时间步长, 特征数)，为后续的时序网络处理打下了坚实的数据基础。

【深度学习】蒲公英书笔记 | 环境配置、张量基础速查

Crocodile1006的博客

06-26

331

本文为《神经网络与深度学习》（蒲公英书）第1章的学习笔记

计算机视觉中卷积神经网络的综述（下）

追赶时代的博客

06-27

250

本文综述了卷积神经网络（CNN）在计算机视觉领域的架构研究进展，重点探讨了图像分类、目标检测和视频预测三大任务。文章详细介绍了CNN的基本组件（如梯度下降、批归一化、Dropout等）及其优化方法，分析了LeNet、AlexNet、VGG、ResNet等经典模型的演进与创新。在目标检测领域，比较了两阶段（R-CNN系列）和一阶段（YOLO系列）检测器的性能特点。视频预测部分则讨论了基于LSTM、Transformer等模型的时序预测方法。文章还总结了CNN面临的挑战（如模型解释性、计算成本等）和未来方向。

transformer架构以及与RNN的对比

最新发布

qq_63159036的博客

06-30

367

本文简要介绍了RNN线性传递致并行非常困难且长距依赖弱，Transformer用了自注意力结构取代。同时介绍了这个架构和关键组件。

（论文速读）改进的基于Lamb波和卷积神经网络的CFRP损伤定位与量化

LJ1147517021的博客

06-29

322

一种基于Lamb波和卷积神经网络(CNN)的复合材料损伤同步定位与定量识别新方法。通过压电片阵列采集CFRP板的Lamb波响应信号，经小波去噪和傅里叶变换提取频域特征后，输入CNN模型进行训练。实验结果表明，该方法在64个区域、3种损伤等级的测试中达到99.5%的识别准确率，且无需基线信号对比。创新性地将CNN用于建立频域信号与损伤状态的复杂映射，解决了传统方法定位精度低、无法同步定量等痛点。虽然损伤模拟方式较简化，但为复合材料健康监测提供了新思路，展现了深度学习在无损检测领域的应用潜力。

LeNet-5 详解：从一只猫的图片看懂卷积神经网络的经典架构

qq_879829564的博客

06-25

284

98 年 Yann LeCun 团队提出的 LeNet-5 是首个完整的卷积神经网络架构，奠定了现代 CNN 的基本范式（卷积-池化-全连接）。本文通过 PyTorch 复现该网络，以一张 32×32 的猫咪灰度图为例，逐步展示数据在各层的变换过程。实验从输入预处理开始，详细记录了卷积层 C1（6个5×5卷积核）的特征图生成过程，包括手动验证卷积计算、可视化6个28×28特征图，并分析 tanh 激活后的数值分布。随后数据经过 S2 池化层下采样为 6 个14×14特征图，展示了 2×2 最大池化的压缩效

AI学习-阶段三-深度学习学习笔记

AI_Encyc的博客

06-27

430

定义一个用于分类的简单网络nn.Linear(4, 16), # 输入4个特征，隐藏层16个节点nn.ReLU(), # 激活函数nn.Linear(16, 3) # 隐藏层16个节点，输出3个类别神经网络就像一个多层过滤器，每一层都把数据变得更"抽象"、更有用，最后一层给出答案。图片大小 = 输入层节点数28×28 = 784 个像素 → 输入层有 784 个节点图片大小像素数特点28×28784MNIST 手写数字，简单任务够用224×22450,176。

pytorch搭建ANN和CNN

Jsjendndn的博客

06-28

小明创办了一家手机公司，他不知道如何估算手机产品的价格。为了解决这个问题，他收集了多家公司的手机销售数据。等）与其售价之间的某种关系。我们可以使用机器学习的方法来解决这个问题，也可以构建一个全连接的网络。该数据为二手手机的各个性能的数据，最后根据这些性能得到。个价格区间，作为这些二手手机售出的价格区间。搭建CNN实现图像分类CIFAR10。需要注意的是: 在这个问题中，我们。，所以该问题也是一个。

吴恩达《深度学习》之看懂 Inverted Dropout

m0_74435839的博客

06-28

386

训练期随机斩断神经元⟹信号方差与期望值自发布下挫k⟹漏掉缩放导致测试集发生数值断层\text{训练期随机斩断神经元} \implies \text{信号方差与期望值自发布下挫 } (k) \implies \text{漏掉缩放导致测试集发生数值断层}训练期随机斩断神经元⟹信号方差与期望值自发布下挫k⟹漏掉缩放导致测试集发生数值断层在训练期除以keepprob⟹强行将残存信号放大1k倍⟹训练与测试达成期望值完美守恒⟹。