机器学习基础(三):线性回归

本文详细介绍了线性回归的基础,包括最小二乘估计和极大似然估计,以及如何通过岭回归解决共线性问题。通过正则化的最小二乘估计,讨论了岭回归在矩阵XTX不可逆时的解决方案,同时从最大后验概率的角度解释了其数学原理。

一、前言

作为回归问题中最简单的线性回归应该是机器学习入门最应该掌握和熟悉的算法。在用最小二乘法来求解线性回归的时候, 如果 X X X不满秩, 则二乘法存在多个解,并存在过拟合的情况。为了避免出现这些情况,对普通的线性回归进行正则化。其中使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

二、线性回归

1.最小二乘估计

假设数据集 D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)} D=(x1y1),(x2,y2),...,(xn,yn),其中 x i = ( x i 1 , x i 2 , . . . , x i d ) T x_i=(x_{i1},x_{i2},...,x_{id})^T xi=(xi1,xi2,...,xid)T,线性回归试图通过线性组合对该数据集进行拟合,模型可表示为:
f ( x ) = ω 1 x 1 + ω 2 x 2 + . . . + ω d x d + b ⇒ f ( x ) = ω T x + b f(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b\\ \Rightarrow f(x)=\omega^Tx+b f(x)=ω1x1+ω2x2+...+ωdxd+bf(x)=ωTx+b
其中 ω = ( ω 1 , ω 2 , . . . , ω d ) T \omega=(\omega_1,\omega_2,...,\omega_d)^T ω=(ω1,ω2,...,ωd)T b b b可看作 ω 0 x 0 \omega_0x_0 ω0x0,令 x 0 = 1 x_0=1 x0=1。将 b b b纳入 ω \omega ω,形成新的 ω \omega ω,则有:
f ( x ) = ω 0 + ω 1 x 1 + ω 2 x 2 + . . . + ω d x d ⇒ f ( x ) = ω T x f(x)=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_dx_d\\ \Rightarrow f(x)=\omega^Tx f(x)=ω0+ω1x1+ω2x2+...+ωdxdf(x)=ωTx
最优的模型使所有样本 x i x_i xi作为输入时产生的输出都能尽可能地接近 y i y_i yi。因此,对于矩阵 X = ( x 1 , x 1 , . . . , x n ) T X=(x_1,x_1,...,x_n)^T X=(x1,x1,...,xn)T,采用最小二乘估计(LSE,Least Square Estimate),以均方误差作为损失函数:
J ( ω ) = 1 N ∑ i = 1 N ∥ y i − ω T x i ∥ 2 = 1 N ( Y − X ω ) T ( Y − X ω ) = 1 N ( Y T − ω T X T ) ( Y − X ω ) = 1 N ( Y T Y − ω T X T Y − Y T X ω + ω T X T X ω ) = 1 N ( Y T Y − 2 ω T X T Y + ω T X T X ω ) \begin{aligned} J(\omega) & =\frac1N\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2\\ & = \frac1N(Y-X\omega)^T(Y-X\omega)\\ & = \frac1N(Y^T-\omega^TX^T)(Y-X\omega)\\ & = \frac1N(Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega)\\ & = \frac1N(Y^TY-2\omega^TX^TY+\omega^TX^TX\omega)\\ \end{aligned} J(ω)=N1i=1NyiωTxi2=N1(YXω)T(YXω)=N1(YTωTXT)(YXω)=N1(YTYωTXTYYTXω+ωTXTXω)=N1(YTY2ωTXTY+ωTXTXω)
该损失函数关于 ω \omega ω求偏导,得:
∂ J ( ω ) ∂ ω = 1 N ( − 2 X T Y + 2 X T X ω ) = 0 ⇒ ω ∗ = ( X T X ) − 1 X T Y \frac{\partial J(\omega)}{\partial\omega}=\frac1N(-2X^TY+2X^TX\omega)=0\\ \Rightarrow\omega^*=(X^TX)^{-1}X^TY ωJ(ω)=N1(2XTY+2XTXω)=0ω=(XTX)1XTY

2.极大似然估计(频率派)

训练数据与模型预测的数据存在误差 ε \varepsilon ε,假设该噪声符合高斯分布 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) εN(0,σ2),则模型可表示为:
y = ω T x + ε y=\omega^Tx+\varepsilon y=ωTx+ε
因此,在给定参数 x x x ω \omega ω时, y ∣ x , ω ∼ N ( ω T x , σ 2 ) y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2) yx,ωN(ωTx,σ2),则似然函数:
L ( ω ) = log ⁡ ∏ i = 1 N P ( y i ∣ x i , ω ) = ∑ i = 1 N log ⁡ P ( y i ∣ x i , ω ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − ( y i − ω T x i ) 2 2 σ 2 ) = ∑ i = 1 N ( log ⁡ 1 2 π σ − ( y i − ω T x i ) 2 2 σ 2 ) \begin{aligned} L(\omega) &=\log\prod_{i=1}^NP(y_i\left|x_i,\omega)\right.\\ & = \sum_{i=1}^N\log P(y_i\left|x_i,\omega)\right.\\ & =\sum_{i=1}^N\log(\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}})\\ & =\sum_{i=1}^N(\log\frac1{\sqrt{2\mathrm\pi}\sigma}-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}) \end{aligned} L(ω)=logi=1NP(yixi,ω)=i=1NlogP(yixi,ω)=i=1Nlog(2π σ1e2σ2(yiωTxi)2)=i=1N(log2π σ12σ2(yiωTxi)2)

似然函数最大化,即极大似然估计(MLE,Maximum Likelihood Estimation)得到的 ω \omega ω即为模型的解:
ω ^ = a r g    m a x ω L ( ω ) = a r g    m a x ω ∑ i = 1 N − 1 2 σ 2 ( y i − ω T x i ) 2 = a r g    m i n ω ∑ i = 1 N ( y i − ω T x i ) 2 \begin{aligned} \widehat\omega & =arg\;\underset\omega{max}L(\omega)\\ & =arg\;\underset\omega{max}\sum_{i=1}^N-\frac1{2\sigma^2}{(y_i-\omega^Tx_i)}^2\\ & =arg\;\underset\omega{min}\sum_{i=1}^N{(y_i-\omega^Tx_i)}^2\end{aligned} ω =argωmaxL(ω)=argωmaxi=1N2σ21(yiωTxi)2=argωmini=1N(yiωTxi)2

由此可以看出最大化 L ( ω ) L(\omega) L(ω)等价于最小化 J ( ω ) J(\omega) J(ω),即证得最小二乘法实际上是在假设误差项满足高斯分布情况下使似然函数最大化。

三、岭回归

1.正则化的最小二乘估计

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。损失函数的表现形式为:
J ( ω ) = ∑ i = 1 N ∥ y i − ω T x i ∥ 2 + λ ∥ ω ∥ 2 2 = ( Y − X ω ) T ( Y − X ω ) + λ ω T ω = ( Y T − ω T X T ) ( Y − X ω ) + λ ω T ω = Y T Y − ω T X T Y − Y T X ω + ω T X T X ω + λ ω T ω = Y T Y − 2 ω T X T Y + ω T ( X T X + λ I ) ω \begin{aligned} J(\omega) & =\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2+\lambda\left\|\omega\right\|_2^2\\ & = (Y-X\omega)^T(Y-X\omega)+\lambda\omega^T\omega\\ & = (Y^T-\omega^TX^T)(Y-X\omega)+\lambda\omega^T\omega\\ & = Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega+\lambda\omega^T\omega\\ & = Y^TY-2\omega^TX^TY+\omega^T(X^TX+\lambda I)\omega \end{aligned} J(ω)=i=1NyiωTxi2+λω22=(YXω)T(YXω)+λωTω=(YTωTXT)(YXω)+λωTω=YTYωTXTYYTXω+ωTXTXω+λωTω=YTY2ωTXTY+ωT(XTX+λI)ω
该损失函数关于 ω \omega ω求偏导,得:
∂ J ( ω ) ∂ ω = − 2 X T Y + 2 ( X T X + λ I ) ω = 0 ⇒ ω ∗ = ( X T X + λ I ) − 1 X T Y \frac{\partial J(\omega)}{\partial\omega}=-2X^TY+2(X^TX+\lambda I)\omega=0\\ \Rightarrow\omega^*=(X^TX+\lambda I)^{-1}X^TY ωJ(ω)=2XTY+2(XTX+λI)ω=0ω=(XTX+λI)1XTY
其中, X T X X^TX XTX为半正定矩阵, I I I为对角矩阵,则 X T X + λ I X^TX+\lambda I XTX+λI是正定矩阵,是可逆的,因此在 X T X X^TX XTX不可逆,通常的线性回归无法求解 ω \omega ω时,岭回归课对 ω \omega ω进行求解。 λ > 0 \lambda>0 λ>0是控制模型复杂度的因子(可看作收缩率的大小), λ \lambda λ越大,收缩率越大,那么系数对于共线性的鲁棒性更强。

2.最大后验概率(贝叶斯派)

在训练数据与模型预测的数据存在的误差 ε \varepsilon ε符合高斯分布 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) εN(0,σ2)的情况下,假定参数 ω \omega ω也服从一个高斯分布,即 ω ∼ N ( 0 , σ 0 2 ) \omega\sim N(0,\sigma_0^2) ωN(0,σ02),则:
P ( ω ) = 1 2 π σ 0 e − ∥ ω ∥ 2 2 σ 0 2 P(\omega) =\frac1{\sqrt{2\mathrm\pi}\sigma_0}e^{-\frac{\left\|\omega\right\|^2}{2\sigma_0^2}} P(ω)=2π σ01e2σ02ω2

在给定参数 x x x ω \omega ω时, y ∣ x , ω ∼ N ( ω T x , σ 2 ) y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2) yx,ωN(ωTx,σ2),有:
P ( y ∣ ω ) = 1 2 π σ e − ( y − ω T x ) 2 2 σ 2 P(y\left|\omega)\right.=\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y-\omega^Tx)^2}{2\sigma^2}} P(yω)=2π σ1e2σ2(yωTx)2

根据最大后验概率估计(MAP,Maximum A Posteriori)得到的 ω \omega ω即为模型的解:
ω ^ = a r g    m a x ω log ⁡ P ( ω ∣ y ) = a r g    m a x ω log ⁡ P ( y ∣ ω ) P ( ω ) P ( y ) = a r g    m a x ω log ⁡ P ( y ∣ ω ) P ( ω ) = a r g    m a x ω ( log ⁡ 1 2 π σ 0 σ − ( ∥ ω ∥ 2 2 σ 0 2 + ( y − ω T x ) 2 2 σ 2 ) ) = a r g    m i n ω ( y − ω T x ) 2 + σ 2 2 σ 0 2 ∥ ω ∥ 2 \begin{aligned} \widehat\omega & =arg\;\underset\omega{max}\log P(\omega\left|y)\right.\\ & =arg\;\underset\omega{max}\log \frac{P(y\left|\omega)\right.P(\omega)}{P(y)}\\ & =arg\;\underset\omega{max}\log P(y\left|\omega)\right.P(\omega)\\ & =arg\;\underset\omega{max}(\log \frac1{2\mathrm\pi\sigma_0\sigma}-(\frac{\left\|\omega\right\|^2}{2\sigma_0^2}+\frac{(y-\omega^Tx)^2}{2\sigma^2}))\\ & =arg\;\underset\omega{min}(y-\omega^Tx)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|^2\\ \end{aligned} ω =argωmaxlogP(ωy)=argωmaxlogP(y)P(yω)P(ω)=argωmaxlogP(yω)P(ω)=argωmax(log2πσ0σ1(2σ02ω2+2σ2(yωTx)2))=argωmin(yωTx)2+2σ02σ2ω2
经过MAP:
ω ^ = a r g    m i n ω ∑ i = 1 N ( y i − ω T x i ) 2 + σ 2 2 σ 0 2 ∥ ω ∥ 2 2 \widehat\omega=arg\;\underset\omega{min}\sum_{i=1}^N(y_i-\omega^Tx_i)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|_2^2 ω =argωmini=1N(yiωTxi)2+2σ02σ2ω22
由此可以看出最大化后验概率 P ( ω ∣ y ) P(\omega\left|y)\right. P(ωy)等价于最小化 J ( ω ) J(\omega) J(ω),即证得正则化的最小二乘法实际上是在假设误差项和先验均满足高斯分布情况下使后验概率最大化。

四、总结

本文依次从普通的最小二乘估计、最大似然估计、正则化的最小二乘估计及最大后验概率的角度对线性回归模型进行推导。由此可证得最小二乘估计LSE可与极大似然估计MLE(噪声符合高斯分布为前提)等价,正则化的最小二乘估计RSLE可与最大后验概率估计MAP(噪声和先验符合高斯分布为前提)等价。最大后验概率估计较最大似然估计而言,增加一个假定服从高斯分布的先验知识。

参考资料
[1]机器学习-白板推导系列(三)-线性回归(Linear Regression)
[2]线性回归详解
[3]岭回归
[4]线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值