单因子方差分析-CSDN博客

一、单因子方差分析的应用场景

单因子方差分析的研究问题，以研究对象是“单一因子与结果的相关性问题”，以研究方法是“多个总体均值的比较问题”。如果一个因子与结果具备一定程度以上的相关性，这一因子的变动大概率会引起结果的变动。换言之，以控制变量为前提，如果因子的不同数值导致了结果的显著差异，一般可以认为这一因子对结果有效。

二、研究问题的理论化

因子记作 $A$ ，因子的不同数值称为水平，记作 $A_{i}$ ，其中 $i = 1, 2, \cdots, r$ ， $r$ 为水平的总数。不同水平对应的一组随机试验结果(简称“总体”）记作 $y_{i}$ ， $y_{i}$ 中的每一个结果记作 $y_{ij}$ ，其中 $j = 1, 2, \cdots, m_{i}$ ， $m_{i}$ 为第 $i$ 个总体中结果的数量。

单因子方差分析需求以下假定：

1. 每一个总体均服从正态分布，记作 $N(\mu _{i}, \sigma _{i}^{2})$ ， $i = 1, 2, \cdots , r$ ；

2. 各总体的方差相同，记作 $\sigma _{1}^{2} = \sigma _{2}^{2} = \cdots = \sigma _{r}^{2}$ ；

3. $y_{ij}$ 相互独立.

以上三个假定都可以用统计方法进行验证。假定1可通过正态性检验验证；假定2可通过方差齐次性检验验证；假定3可通过随机化实现（这条在数学问题中一般可默认）。

如果在给定的显著性水平 $\alpha$ 下，不同水平 $A_{i}$ 的均值 $\mu _{i}$ 相等，认为因子 $A$ 不显著；反之，如果不同水平的均值不全相等，认为因子 $A$ 显著。由此给出假设：

$H_{0}: \mu _{1} = \mu _{2} = \cdots = \mu _{r}.$

三、单因子方差分析表

单因子方差分析的核心是建立单因子方差分析表，现给出模板如下：

来源	平方和	自由度	均方和	F比
因子	$S_{A}$	$f_{A} = r - 1$	$MS_{A} = S_{A} / f_{A}$	$F = MS_{A} / MS_{e}$
误差	$S_{e}$	$f_{e} = n - r$	$MS_{e} = S_{e} / f_{e}$
总和	$S_{T}$	$f_{T} = n - 1$

$n = \sum\limits_{i=1}^{r} m_{i};$

$T_{i} = \sum\limits_{j=1}^{m_{i}}y_{ij},\bar{y_{i}}=\frac{T_{i}}{m_{i}};$

$T = \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{m_{i}}y_{ij}=\sum\limits_{i=1}^{r}T_{i},\bar{y}=\frac{T}{n};$

$S_{T}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{m_{i}}(y_{ij}-\bar{y})^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{m_{i}}y_{ij}^{2}-\frac{T^{2}}{n};$

$S_{A}=\sum\limits_{i=1}^{r}m_{i}(\bar{y_{i}}-\bar{y})^{2}=\sum\limits_{i=1}^{r}\frac{T_{i}^{2}}{m_{i}}-\frac{T^{2}}{n};$

$S_{e}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{m_{i}}(y_{ij}-\bar{y_{i}})^{2}=S_{T}-S_{A};$

对给定的 $\alpha$ 可作如下判断：

如果 $F>F_{1-\alpha}(f_{A},f_{e})$ , 则拒绝 $H_{0}$ ，认为因子 $A$ 显著；

若 $F\leqslant F_{1-\alpha}(f_{A},f_{e})$ , 则接受 $H_{0}$ ，认为因子 $A$ 不显著.

四、参数估计

在检验结果为显著时，可进一步求出总均值 $\mu$ ，各主效应 $a_{i}$ 和方差 $\sigma^{2}$ 的估计.

$a_{i}=\mu_{i}-\mu$ 为因子 $A$ 在第 $i$ 水平下的主效应，简称为 $A_{i}$ 的效应.

1. 点估计

$\hat{\bar{\mu}}=\bar{y};$

$\hat{a_{i}}=\bar{y_{i}}-\bar{y};$

$\hat{\sigma}=\frac{1}{n}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{m_{i}}(y_{ij}-\bar{y})^{2}=MS_{e}.$

2.区间估计

水平 $A_{i}$ 的均值 $\mu_{i}$ 的 $1-\alpha$ 置信区间为 $[\bar{y_{i}}-\frac{\hat{\sigma}\cdot t_{1-\alpha/2}(f_{e})}{\sqrt{m_{i}}},\bar{y_{i}}+\frac{\hat{\sigma}\cdot t_{1-\alpha/2}(f_{e})}{\sqrt{m_{i}}}].$