logistic回归的损失函数（lost function）原理，或者交叉熵损失函数

最新推荐文章于 2024-05-08 19:45:50 发布

原创最新推荐文章于 2024-05-08 19:45:50 发布 · 1.3k 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

本文深入探讨了Logistic回归中损失函数与极大似然估计的关系，详细解析了如何通过极大似然估计推导出Logistic回归的损失函数，并解释了其背后的数学原理。

logistic回归的损失函数和极大似然估计的关系

记
$\Phi(x)=\frac{1}{1+e^-{\theta x}}$
我们可以把这个sigmoid函数的值看做y等于1的后验估计概率，也就是：
$p(y=1|x)=\Phi(x)$
那么y=0的时候自然是补事件
$p(y=0|x)=1-\Phi(x)$
我们可以把这两个式子简化一下,得到
$p(y|x)=\Phi(x)^y(1-\Phi(x))^{1-y}$
接下来就是极大似然估计：
$L(\omega)=\prod_{i=1}^{n}{p(y^i|x^i;\omega)}$
极大似然估计要求导，如果是连乘式求导不方便，我们可以用对数划开，就可以得到
$l(\omega)=lnL(\omega)=\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}$
这样求出来的参数 $ω\omega$ 是令 $l(ω)l(\omega)$ 最大的参数，我们是希望这个尽可能小，因为你仔细看就会发现 $l(ω)l(\omega)$ 其实就是损失函数的正值，那我们在前面添上个负号，就可以求得最小的损失函数值。
$J(w)=−l(w)=-\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}$