小默说AI(17):Softmax —— 分数变概率
上一集我们讲了前馈网络(FFN)的三步走:升维、GELU筛选、降维。Softmax是AI领域最常见的激活函数之一——从图像分类到Transformer的注意力机制,它无处不在。很多人对它只有一个模糊的印象:"就是把一堆数字变成概率的东西"。这期我们把它彻底讲透:它到底在做什么,为什么必须用指数变换,以及那个看似多余的"减去最大值"到底解决了什么问题。
一、从打分到概率:Softmax的使命
1.1 投票怎么变成百分比?
假设你训练了一个图像分类模型,最后一层对一张图片输出了四个分数:
- 猫:2.1
- 狗:0.5
- 鸟:-1.3
- 鱼:3.0
这些分数本身有明确的相对大小关系——鱼最可能,猫其次。但模型需要的是一个"概率分布",也就是每个类别的概率加起来等于1,且每个概率都是非负的。你不能用原始分数直接归一化,因为-1.3是负数,不能作为概率。
这时候就需要Softmax出场。它的作用就像一个翻译官,把原始打分翻译成概率。
Softmax的输入是一组K维实数,输出也是一组K维数值,满足两个条件:每个元素都在0到1之间,所有元素之和为1。这恰好就是一个概率分布的数学定义。
二、Softmax的三步走
Softmax的计算过程可以拆成三步,理解这三步对理解它的行为至关重要。
2.1 第一步:指数变换
对每个输入值求e的幂次方。e的任意实数次幂都是一个正数,这就解决了分数可能为负的问题。

:Softmax —— 分数变概率&spm=1001.2101.3001.5002&articleId=161961324&d=1&t=3&u=c6ff7b70dfc94edc9d4ad55554d501e8)

被折叠的 条评论
为什么被折叠?



