Q:损失函数有几种?原理是什么?有什么特点?
损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。
理解:损失函数旨在表示出logit和label的差异程度,不同的损失函数有不同的表示意义,也就是在最小化损失函数过程中,logit逼近label的方式不同,得到的结果可能也不同。
1、分类任务损失
1.1 0-1 loss
0-1 loss是最原始的loss,它直接比较输出值与输入值是否相等,对于样本i,它的loss等于:

1.2 0熵与交叉熵loss
香农在1948年提出了“信息熵”的概念,它使用对数函数表示对不确定性的测量。熵越高,表示能传输的信息越多,熵越少,表示传输的信息越少,我们可以直接将熵理解为信息量。为什么选择对数函数而不是其他函数呢?首先,不确定性必须是概率P的单调递降函数,假设一个系统中各个离散事件互不相关,要求其总的不确定性等于各自不确定性之和,对数函数是满足这个要求的。将不确定性f定义为log(1/p)=-log(p),其中p是概率。
说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:
![[公式]](https://i-blog.csdnimg.cn/blog_migrate/01f2079515ef1757c8d2c2e7628b93e1.png)
推导过程:
我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。
Sigmoid 函数的表达式和图形如下所示:
![[公式]](https://i-blog.csdnimg.cn/blog_migrate/a0d8eccd7c1ac0a3440b3e876f67985c.png)


本文全面解析了损失函数的种类及原理,包括分类任务中的0-1 loss、交叉熵损失、softmax损失及其变种,以及回归任务中的L1、L2损失和改进型损失。深入探讨了各类损失函数的特点及应用场景。

4万+

被折叠的 条评论
为什么被折叠?



