机器学习基础（三）：线性回归

最新推荐文章于 2026-04-15 22:24:44 发布

原创最新推荐文章于 2026-04-15 22:24:44 发布 · 359 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能 #机器学习 #算法

机器学习同时被 2 个专栏收录

8 篇文章

订阅专栏

机器学习基础

3 篇文章

订阅专栏

本文详细介绍了线性回归的基础，包括最小二乘估计和极大似然估计，以及如何通过岭回归解决共线性问题。通过正则化的最小二乘估计，讨论了岭回归在矩阵XTX不可逆时的解决方案，同时从最大后验概率的角度解释了其数学原理。

概览

一、前言
二、线性回归
- 1.最小二乘估计
- 2.极大似然估计（频率派）
三、岭回归
- 1.正则化的最小二乘估计
- 2.最大后验概率（贝叶斯派）
四、总结

一、前言

作为回归问题中最简单的线性回归应该是机器学习入门最应该掌握和熟悉的算法。在用最小二乘法来求解线性回归的时候, 如果 $X$ 不满秩, 则二乘法存在多个解，并存在过拟合的情况。为了避免出现这些情况，对普通的线性回归进行正则化。其中使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

二、线性回归

1.最小二乘估计

假设数据集 $D={(x_1，y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i=(x_{i1},x_{i2},...,x_{id})^T$ ，线性回归试图通过线性组合对该数据集进行拟合，模型可表示为：
$f(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b\\ \Rightarrow f(x)=\omega^Tx+b$
其中 $\omega=(\omega_1,\omega_2,...,\omega_d)^T$ ， $b$ 可看作 $\omega_0x_0$ ，令 $x_0=1$ 。将 $b$ 纳入 $\omega$ ，形成新的 $\omega$ ，则有：
$f(x)=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_dx_d\\ \Rightarrow f(x)=\omega^Tx$
最优的模型使所有样本 $x_i$ 作为输入时产生的输出都能尽可能地接近 $y_i$ 。因此，对于矩阵 $X=(x_1,x_1,...,x_n)^T$ ，采用最小二乘估计（LSE，Least Square Estimate），以均方误差作为损失函数：
$\begin{aligned} J(\omega) & =\frac1N\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2\\ & = \frac1N(Y-X\omega)^T(Y-X\omega)\\ & = \frac1N(Y^T-\omega^TX^T)(Y-X\omega)\\ & = \frac1N(Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega)\\ & = \frac1N(Y^TY-2\omega^TX^TY+\omega^TX^TX\omega)\\ \end{aligned}$
该损失函数关于 $\omega$ 求偏导，得：
$\frac{\partial J(\omega)}{\partial\omega}=\frac1N(-2X^TY+2X^TX\omega)=0\\ \Rightarrow\omega^*=(X^TX)^{-1}X^TY$

2.极大似然估计（频率派）

训练数据与模型预测的数据存在误差 $\varepsilon$ ，假设该噪声符合高斯分布 $\varepsilon\sim N(0,\sigma^2)$ ，则模型可表示为：
$y=\omega^Tx+\varepsilon$
因此，在给定参数 $x$ 和 $\omega$ 时， $y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2)$ ，则似然函数：
$\begin{aligned} L(\omega) &=\log\prod_{i=1}^NP(y_i\left|x_i,\omega)\right.\\ & = \sum_{i=1}^N\log P(y_i\left|x_i,\omega)\right.\\ & =\sum_{i=1}^N\log(\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}})\\ & =\sum_{i=1}^N(\log\frac1{\sqrt{2\mathrm\pi}\sigma}-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}) \end{aligned}$

似然函数最大化，即极大似然估计（MLE，Maximum Likelihood Estimation）得到的 $\omega$ 即为模型的解：
$\begin{aligned} \widehat\omega & =arg\;\underset\omega{max}L(\omega)\\ & =arg\;\underset\omega{max}\sum_{i=1}^N-\frac1{2\sigma^2}{(y_i-\omega^Tx_i)}^2\\ & =arg\;\underset\omega{min}\sum_{i=1}^N{(y_i-\omega^Tx_i)}^2\end{aligned}$

由此可以看出最大化 $L(\omega)$ 等价于最小化 $J(\omega)$ ，即证得最小二乘法实际上是在假设误差项满足高斯分布情况下使似然函数最大化。

三、岭回归

1.正则化的最小二乘估计

岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。损失函数的表现形式为：
$\begin{aligned} J(\omega) & =\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2+\lambda\left\|\omega\right\|_2^2\\ & = (Y-X\omega)^T(Y-X\omega)+\lambda\omega^T\omega\\ & = (Y^T-\omega^TX^T)(Y-X\omega)+\lambda\omega^T\omega\\ & = Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega+\lambda\omega^T\omega\\ & = Y^TY-2\omega^TX^TY+\omega^T(X^TX+\lambda I)\omega \end{aligned}$
该损失函数关于 $\omega$ 求偏导，得：
$\frac{\partial J(\omega)}{\partial\omega}=-2X^TY+2(X^TX+\lambda I)\omega=0\\ \Rightarrow\omega^*=(X^TX+\lambda I)^{-1}X^TY$
其中， $X^TX$ 为半正定矩阵， $I$ 为对角矩阵，则 $X^TX+\lambda I$ 是正定矩阵，是可逆的，因此在 $X^TX$ 不可逆，通常的线性回归无法求解 $\omega$ 时，岭回归课对 $\omega$ 进行求解。 $\lambda>0$ 是控制模型复杂度的因子(可看作收缩率的大小)， $\lambda$ 越大，收缩率越大，那么系数对于共线性的鲁棒性更强。

2.最大后验概率（贝叶斯派）

在训练数据与模型预测的数据存在的误差 $\varepsilon$ 符合高斯分布 $\varepsilon\sim N(0,\sigma^2)$ 的情况下，假定参数 $\omega$ 也服从一个高斯分布，即 $\omega\sim N(0,\sigma_0^2)$ ，则：
$P(\omega) =\frac1{\sqrt{2\mathrm\pi}\sigma_0}e^{-\frac{\left\|\omega\right\|^2}{2\sigma_0^2}}$

在给定参数 $x$ 和 $\omega$ 时， $y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2)$ ，有：
$P(y\left|\omega)\right.=\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y-\omega^Tx)^2}{2\sigma^2}}$

根据最大后验概率估计（MAP，Maximum A Posteriori）得到的 $\omega$ 即为模型的解：
$\begin{aligned} \widehat\omega & =arg\;\underset\omega{max}\log P(\omega\left|y)\right.\\ & =arg\;\underset\omega{max}\log \frac{P(y\left|\omega)\right.P(\omega)}{P(y)}\\ & =arg\;\underset\omega{max}\log P(y\left|\omega)\right.P(\omega)\\ & =arg\;\underset\omega{max}(\log \frac1{2\mathrm\pi\sigma_0\sigma}-(\frac{\left\|\omega\right\|^2}{2\sigma_0^2}+\frac{(y-\omega^Tx)^2}{2\sigma^2}))\\ & =arg\;\underset\omega{min}(y-\omega^Tx)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|^2\\ \end{aligned}$
经过MAP：
$\widehat\omega=arg\;\underset\omega{min}\sum_{i=1}^N(y_i-\omega^Tx_i)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|_2^2$
由此可以看出最大化后验概率 $P(\omega\left|y)\right.$ 等价于最小化 $J(\omega)$ ，即证得正则化的最小二乘法实际上是在假设误差项和先验均满足高斯分布情况下使后验概率最大化。

四、总结

本文依次从普通的最小二乘估计、最大似然估计、正则化的最小二乘估计及最大后验概率的角度对线性回归模型进行推导。由此可证得最小二乘估计LSE可与极大似然估计MLE（噪声符合高斯分布为前提）等价，正则化的最小二乘估计RSLE可与最大后验概率估计MAP（噪声和先验符合高斯分布为前提）等价。最大后验概率估计较最大似然估计而言，增加一个假定服从高斯分布的先验知识。

参考资料
[1]机器学习-白板推导系列(三)-线性回归（Linear Regression）
[2]线性回归详解
[3]岭回归
[4]线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释