一、前言
作为回归问题中最简单的线性回归应该是机器学习入门最应该掌握和熟悉的算法。在用最小二乘法来求解线性回归的时候, 如果 X X X不满秩, 则二乘法存在多个解,并存在过拟合的情况。为了避免出现这些情况,对普通的线性回归进行正则化。其中使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。
二、线性回归
1.最小二乘估计
假设数据集
D
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}
D=(x1,y1),(x2,y2),...,(xn,yn),其中
x
i
=
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
d
)
T
x_i=(x_{i1},x_{i2},...,x_{id})^T
xi=(xi1,xi2,...,xid)T,线性回归试图通过线性组合对该数据集进行拟合,模型可表示为:
f
(
x
)
=
ω
1
x
1
+
ω
2
x
2
+
.
.
.
+
ω
d
x
d
+
b
⇒
f
(
x
)
=
ω
T
x
+
b
f(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b\\ \Rightarrow f(x)=\omega^Tx+b
f(x)=ω1x1+ω2x2+...+ωdxd+b⇒f(x)=ωTx+b
其中
ω
=
(
ω
1
,
ω
2
,
.
.
.
,
ω
d
)
T
\omega=(\omega_1,\omega_2,...,\omega_d)^T
ω=(ω1,ω2,...,ωd)T,
b
b
b可看作
ω
0
x
0
\omega_0x_0
ω0x0,令
x
0
=
1
x_0=1
x0=1。将
b
b
b纳入
ω
\omega
ω,形成新的
ω
\omega
ω,则有:
f
(
x
)
=
ω
0
+
ω
1
x
1
+
ω
2
x
2
+
.
.
.
+
ω
d
x
d
⇒
f
(
x
)
=
ω
T
x
f(x)=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_dx_d\\ \Rightarrow f(x)=\omega^Tx
f(x)=ω0+ω1x1+ω2x2+...+ωdxd⇒f(x)=ωTx
最优的模型使所有样本
x
i
x_i
xi作为输入时产生的输出都能尽可能地接近
y
i
y_i
yi。因此,对于矩阵
X
=
(
x
1
,
x
1
,
.
.
.
,
x
n
)
T
X=(x_1,x_1,...,x_n)^T
X=(x1,x1,...,xn)T,采用最小二乘估计(LSE,Least Square Estimate),以均方误差作为损失函数:
J
(
ω
)
=
1
N
∑
i
=
1
N
∥
y
i
−
ω
T
x
i
∥
2
=
1
N
(
Y
−
X
ω
)
T
(
Y
−
X
ω
)
=
1
N
(
Y
T
−
ω
T
X
T
)
(
Y
−
X
ω
)
=
1
N
(
Y
T
Y
−
ω
T
X
T
Y
−
Y
T
X
ω
+
ω
T
X
T
X
ω
)
=
1
N
(
Y
T
Y
−
2
ω
T
X
T
Y
+
ω
T
X
T
X
ω
)
\begin{aligned} J(\omega) & =\frac1N\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2\\ & = \frac1N(Y-X\omega)^T(Y-X\omega)\\ & = \frac1N(Y^T-\omega^TX^T)(Y-X\omega)\\ & = \frac1N(Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega)\\ & = \frac1N(Y^TY-2\omega^TX^TY+\omega^TX^TX\omega)\\ \end{aligned}
J(ω)=N1i=1∑N∥∥yi−ωTxi∥∥2=N1(Y−Xω)T(Y−Xω)=N1(YT−ωTXT)(Y−Xω)=N1(YTY−ωTXTY−YTXω+ωTXTXω)=N1(YTY−2ωTXTY+ωTXTXω)
该损失函数关于
ω
\omega
ω求偏导,得:
∂
J
(
ω
)
∂
ω
=
1
N
(
−
2
X
T
Y
+
2
X
T
X
ω
)
=
0
⇒
ω
∗
=
(
X
T
X
)
−
1
X
T
Y
\frac{\partial J(\omega)}{\partial\omega}=\frac1N(-2X^TY+2X^TX\omega)=0\\ \Rightarrow\omega^*=(X^TX)^{-1}X^TY
∂ω∂J(ω)=N1(−2XTY+2XTXω)=0⇒ω∗=(XTX)−1XTY
2.极大似然估计(频率派)
训练数据与模型预测的数据存在误差
ε
\varepsilon
ε,假设该噪声符合高斯分布
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma^2)
ε∼N(0,σ2),则模型可表示为:
y
=
ω
T
x
+
ε
y=\omega^Tx+\varepsilon
y=ωTx+ε
因此,在给定参数
x
x
x和
ω
\omega
ω时,
y
∣
x
,
ω
∼
N
(
ω
T
x
,
σ
2
)
y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2)
y∣x,ω∼N(ωTx,σ2),则似然函数:
L
(
ω
)
=
log
∏
i
=
1
N
P
(
y
i
∣
x
i
,
ω
)
=
∑
i
=
1
N
log
P
(
y
i
∣
x
i
,
ω
)
=
∑
i
=
1
N
log
(
1
2
π
σ
e
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
)
=
∑
i
=
1
N
(
log
1
2
π
σ
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
)
\begin{aligned} L(\omega) &=\log\prod_{i=1}^NP(y_i\left|x_i,\omega)\right.\\ & = \sum_{i=1}^N\log P(y_i\left|x_i,\omega)\right.\\ & =\sum_{i=1}^N\log(\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}})\\ & =\sum_{i=1}^N(\log\frac1{\sqrt{2\mathrm\pi}\sigma}-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}) \end{aligned}
L(ω)=logi=1∏NP(yi∣xi,ω)=i=1∑NlogP(yi∣xi,ω)=i=1∑Nlog(2πσ1e−2σ2(yi−ωTxi)2)=i=1∑N(log2πσ1−2σ2(yi−ωTxi)2)
似然函数最大化,即极大似然估计(MLE,Maximum Likelihood Estimation)得到的
ω
\omega
ω即为模型的解:
ω
^
=
a
r
g
m
a
x
ω
L
(
ω
)
=
a
r
g
m
a
x
ω
∑
i
=
1
N
−
1
2
σ
2
(
y
i
−
ω
T
x
i
)
2
=
a
r
g
m
i
n
ω
∑
i
=
1
N
(
y
i
−
ω
T
x
i
)
2
\begin{aligned} \widehat\omega & =arg\;\underset\omega{max}L(\omega)\\ & =arg\;\underset\omega{max}\sum_{i=1}^N-\frac1{2\sigma^2}{(y_i-\omega^Tx_i)}^2\\ & =arg\;\underset\omega{min}\sum_{i=1}^N{(y_i-\omega^Tx_i)}^2\end{aligned}
ω
=argωmaxL(ω)=argωmaxi=1∑N−2σ21(yi−ωTxi)2=argωmini=1∑N(yi−ωTxi)2
由此可以看出最大化 L ( ω ) L(\omega) L(ω)等价于最小化 J ( ω ) J(\omega) J(ω),即证得最小二乘法实际上是在假设误差项满足高斯分布情况下使似然函数最大化。
三、岭回归
1.正则化的最小二乘估计
岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。损失函数的表现形式为:
J
(
ω
)
=
∑
i
=
1
N
∥
y
i
−
ω
T
x
i
∥
2
+
λ
∥
ω
∥
2
2
=
(
Y
−
X
ω
)
T
(
Y
−
X
ω
)
+
λ
ω
T
ω
=
(
Y
T
−
ω
T
X
T
)
(
Y
−
X
ω
)
+
λ
ω
T
ω
=
Y
T
Y
−
ω
T
X
T
Y
−
Y
T
X
ω
+
ω
T
X
T
X
ω
+
λ
ω
T
ω
=
Y
T
Y
−
2
ω
T
X
T
Y
+
ω
T
(
X
T
X
+
λ
I
)
ω
\begin{aligned} J(\omega) & =\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2+\lambda\left\|\omega\right\|_2^2\\ & = (Y-X\omega)^T(Y-X\omega)+\lambda\omega^T\omega\\ & = (Y^T-\omega^TX^T)(Y-X\omega)+\lambda\omega^T\omega\\ & = Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega+\lambda\omega^T\omega\\ & = Y^TY-2\omega^TX^TY+\omega^T(X^TX+\lambda I)\omega \end{aligned}
J(ω)=i=1∑N∥∥yi−ωTxi∥∥2+λ∥ω∥22=(Y−Xω)T(Y−Xω)+λωTω=(YT−ωTXT)(Y−Xω)+λωTω=YTY−ωTXTY−YTXω+ωTXTXω+λωTω=YTY−2ωTXTY+ωT(XTX+λI)ω
该损失函数关于
ω
\omega
ω求偏导,得:
∂
J
(
ω
)
∂
ω
=
−
2
X
T
Y
+
2
(
X
T
X
+
λ
I
)
ω
=
0
⇒
ω
∗
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
\frac{\partial J(\omega)}{\partial\omega}=-2X^TY+2(X^TX+\lambda I)\omega=0\\ \Rightarrow\omega^*=(X^TX+\lambda I)^{-1}X^TY
∂ω∂J(ω)=−2XTY+2(XTX+λI)ω=0⇒ω∗=(XTX+λI)−1XTY
其中,
X
T
X
X^TX
XTX为半正定矩阵,
I
I
I为对角矩阵,则
X
T
X
+
λ
I
X^TX+\lambda I
XTX+λI是正定矩阵,是可逆的,因此在
X
T
X
X^TX
XTX不可逆,通常的线性回归无法求解
ω
\omega
ω时,岭回归课对
ω
\omega
ω进行求解。
λ
>
0
\lambda>0
λ>0是控制模型复杂度的因子(可看作收缩率的大小),
λ
\lambda
λ越大,收缩率越大,那么系数对于共线性的鲁棒性更强。
2.最大后验概率(贝叶斯派)
在训练数据与模型预测的数据存在的误差
ε
\varepsilon
ε符合高斯分布
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma^2)
ε∼N(0,σ2)的情况下,假定参数
ω
\omega
ω也服从一个高斯分布,即
ω
∼
N
(
0
,
σ
0
2
)
\omega\sim N(0,\sigma_0^2)
ω∼N(0,σ02),则:
P
(
ω
)
=
1
2
π
σ
0
e
−
∥
ω
∥
2
2
σ
0
2
P(\omega) =\frac1{\sqrt{2\mathrm\pi}\sigma_0}e^{-\frac{\left\|\omega\right\|^2}{2\sigma_0^2}}
P(ω)=2πσ01e−2σ02∥ω∥2
在给定参数
x
x
x和
ω
\omega
ω时,
y
∣
x
,
ω
∼
N
(
ω
T
x
,
σ
2
)
y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2)
y∣x,ω∼N(ωTx,σ2),有:
P
(
y
∣
ω
)
=
1
2
π
σ
e
−
(
y
−
ω
T
x
)
2
2
σ
2
P(y\left|\omega)\right.=\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y-\omega^Tx)^2}{2\sigma^2}}
P(y∣ω)=2πσ1e−2σ2(y−ωTx)2
根据最大后验概率估计(MAP,Maximum A Posteriori)得到的
ω
\omega
ω即为模型的解:
ω
^
=
a
r
g
m
a
x
ω
log
P
(
ω
∣
y
)
=
a
r
g
m
a
x
ω
log
P
(
y
∣
ω
)
P
(
ω
)
P
(
y
)
=
a
r
g
m
a
x
ω
log
P
(
y
∣
ω
)
P
(
ω
)
=
a
r
g
m
a
x
ω
(
log
1
2
π
σ
0
σ
−
(
∥
ω
∥
2
2
σ
0
2
+
(
y
−
ω
T
x
)
2
2
σ
2
)
)
=
a
r
g
m
i
n
ω
(
y
−
ω
T
x
)
2
+
σ
2
2
σ
0
2
∥
ω
∥
2
\begin{aligned} \widehat\omega & =arg\;\underset\omega{max}\log P(\omega\left|y)\right.\\ & =arg\;\underset\omega{max}\log \frac{P(y\left|\omega)\right.P(\omega)}{P(y)}\\ & =arg\;\underset\omega{max}\log P(y\left|\omega)\right.P(\omega)\\ & =arg\;\underset\omega{max}(\log \frac1{2\mathrm\pi\sigma_0\sigma}-(\frac{\left\|\omega\right\|^2}{2\sigma_0^2}+\frac{(y-\omega^Tx)^2}{2\sigma^2}))\\ & =arg\;\underset\omega{min}(y-\omega^Tx)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|^2\\ \end{aligned}
ω
=argωmaxlogP(ω∣y)=argωmaxlogP(y)P(y∣ω)P(ω)=argωmaxlogP(y∣ω)P(ω)=argωmax(log2πσ0σ1−(2σ02∥ω∥2+2σ2(y−ωTx)2))=argωmin(y−ωTx)2+2σ02σ2∥ω∥2
经过MAP:
ω
^
=
a
r
g
m
i
n
ω
∑
i
=
1
N
(
y
i
−
ω
T
x
i
)
2
+
σ
2
2
σ
0
2
∥
ω
∥
2
2
\widehat\omega=arg\;\underset\omega{min}\sum_{i=1}^N(y_i-\omega^Tx_i)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|_2^2
ω
=argωmini=1∑N(yi−ωTxi)2+2σ02σ2∥ω∥22
由此可以看出最大化后验概率
P
(
ω
∣
y
)
P(\omega\left|y)\right.
P(ω∣y)等价于最小化
J
(
ω
)
J(\omega)
J(ω),即证得正则化的最小二乘法实际上是在假设误差项和先验均满足高斯分布情况下使后验概率最大化。
四、总结
本文依次从普通的最小二乘估计、最大似然估计、正则化的最小二乘估计及最大后验概率的角度对线性回归模型进行推导。由此可证得最小二乘估计LSE可与极大似然估计MLE(噪声符合高斯分布为前提)等价,正则化的最小二乘估计RSLE可与最大后验概率估计MAP(噪声和先验符合高斯分布为前提)等价。最大后验概率估计较最大似然估计而言,增加一个假定服从高斯分布的先验知识。
参考资料
[1]机器学习-白板推导系列(三)-线性回归(Linear Regression)
[2]线性回归详解
[3]岭回归
[4]线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

本文详细介绍了线性回归的基础,包括最小二乘估计和极大似然估计,以及如何通过岭回归解决共线性问题。通过正则化的最小二乘估计,讨论了岭回归在矩阵XTX不可逆时的解决方案,同时从最大后验概率的角度解释了其数学原理。
:线性回归&spm=1001.2101.3001.5002&articleId=104239688&d=1&t=3&u=51a63f6135e34ad2b24ee9c18a4dc0a6)
1225

被折叠的 条评论
为什么被折叠?



