深度学习——知识点总结3(损失函数Loss)

最新推荐文章于 2024-08-11 22:11:16 发布

原创

最新推荐文章于 2024-08-11 22:11:16 发布 · 8.7k 阅读

本文全面解析了损失函数的种类及原理，包括分类任务中的0-1 loss、交叉熵损失、softmax损失及其变种，以及回归任务中的L1、L2损失和改进型损失。深入探讨了各类损失函数的特点及应用场景。

Q：损失函数有几种？原理是什么？有什么特点？

损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：

　　其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的Φ是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。

　　理解：损失函数旨在表示出logit和label的差异程度，不同的损失函数有不同的表示意义，也就是在最小化损失函数过程中，logit逼近label的方式不同，得到的结果可能也不同。

1、分类任务损失

1.1 0-1 loss

0-1 loss是最原始的loss，它直接比较输出值与输入值是否相等，对于样本i，它的loss等于：

1.2 0熵与交叉熵loss

香农在1948年提出了“信息熵”的概念，它使用对数函数表示对不确定性的测量。熵越高，表示能传输的信息越多，熵越少，表示传输的信息越少，我们可以直接将熵理解为信息量。为什么选择对数函数而不是其他函数呢？首先，不确定性必须是概率P的单调递降函数，假设一个系统中各个离散事件互不相关，要求其总的不确定性等于各自不确定性之和，对数函数是满足这个要求的。将不确定性f定义为log(1/p)=-log(p)，其中p是概率。

说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：

[公式]

推导过程：

我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

Sigmoid 函数的表达式和图形如下所示：

[公式]