吉林大学统计计算期末复习必会知识点总结

原创已于 2026-01-09 16:55:28 修改 · 835 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

吉林大学统计计算

于 2026-01-08 16:24:17 首次发布

接下来大概总结一下每一章考的概率比较大的知识点。
还是那句话，想好好学考高分就认真看学在吉大录课听老师讲，只想及格突击学的话把这篇全背下来且会用能保你及格，有很多更细节的知识点和证明过程就不写在这里了，可能后续会再出有更多细节的复习资料吧，也可能懒了就不会再出了。整门课学下来感觉不是很难，但是需要理解记忆的东西挺多的，死记硬背不可取，理解了自然就记住了。
除了EM那一章大部分从PPT里抓取原图，其他全是手打的，可能会有笔误之处，欢迎评论留言捉虫，如果看到有哪些和PPT、和老师讲的不一样的，以PPT为准，因为大概率是我这个笨蛋打错了

2.2 线性同余发生器

$\left\{\begin{matrix} x_n{}=(ax_{n-1}+c)(mod M),n=1,2,...\\ Rn=\frac{x_n{}}{M} \end{matrix}\right.$
混合同余发生器：c>0
乘同余发生器：c=0
同余性质：①i≡j(mod M) $\Leftrightarrow$ j≡i(mod M)
②若i≡j(mod M),j≡k(mod M) 则i≡k(mod M)
③若i1≡j1(mod M),i2≡j2(mod M) 则i1±i2≡j1±j2(mod M)；i1i2≡j1j2(mod M)
④若ik≡jk(mod M)（k为正整数），则i≡j(mod $\frac{M}{gcd(M,k)}$ )，其中gcd(M,k)表示M和k的最大公约数

2.3 非均匀随机数的产生

逆变换法

离散型：推导密度函数 $p_{k+1}=...p_{k}$ ，由此 $F(k+1)=F(k)+p_{k+1}=F(k)+...p_k$ 。
连续型：已知密度函数p(x)，求分布函数 $F(x)=\int p(x)dx$ ，求分布函数逆函数 $F^{-1}(x)$ ，随机取U~U(0,1)，解F(x)=U，即 $x=F^{-1}(U)$

舍选法I

已知密度函数p(x)，求导数p'(x)，令导数p'(x)=0解出x，代入求maxp(x)，则M=maxp(x)，求M(b-a)即为算法所需迭代次数

复合法

①U1~U(0,1)，根据U1的值选择子分布
②U2~U(0,1)，根据①选择的子分布代入U2，用逆变换法之类的方法生成随机数

2.4 随机向量的产生

条件分布法

$p(x_1,x_2,...,x_r)=p(x_1)p(x_2|x_1)p(x_3|x_1,x_2)...p(x_r|x_1,x_2,...,x_{r-1})$

步骤：①生成X1
②由已知X1的值服从条件分布p(X2|X1)，产生X2
③由已知X1,X2的值服从条件分布p(X3|X1,X2)，产生X3
④重复，直到产生Xr

多项分布

步骤：①由X1~B(n,p1)，产生X1=x1
②由X2~B(n-x1, $\frac{p_{2}}{1-p1}$ )，产生X2=x2
③由X3~B(n-x1-x2, $\frac{p3}{1-p1-p2}$ )，产生X3=x3
④重复，直到产生Xr

3.2 随机模拟积分均匀抽样

  双期望定理 $E[E(X|Y)]=E(X)$
  方差分解公式 $Var(X)=E[Var(X|Y)]-Var[E(X|Y)]$
  条件方差公式 $Var(X|Y)=E(X^{2}|Y)-(E(X|Y))^{2}$

$I=\int_{a}^{b}h(x)dx$

随机投点法

$\hat{I}=\hat{p}M(b-a)$
$Var(\hat{I})=\frac{[M(b-a)]^{2}p(1-p)}{N}$

平均值法

$\hat{I}=\frac{b-a}{n}\sum_{i=1}^{N}h(Ui)$
$Var(\hat{I})=\frac{(b-a)^2}{N}Var(h(U))$

高维定积分 $I=\int_{a_d}^{b_d}...\int_{a_2}^{b_2}\int_{a_1}^{b_1}h(x_1,x_2,...,x_d)dx_1dx_2...dx_d$

随机投点法 $\hat{I_1}=\hat{p}M\prod_{j=1}^{d}(b_j-a_j)=\hat{p}MV(C)$
$Var(\hat{I_1})=\frac{[M\prod_{j=1}^{d}(b_j-a_j)]^{2}p(1-p)}{N}=\frac{[MV(C)]^{2}p(1-p)}{N}$

平均值法 $\hat{I_2}=\frac{\prod_{j=1}^{d}(b_j-a_j)}{n}\sum_{i=1}^{N}h(Ui)=\frac{V(C)}{n}\sum_{i=1}^{N}h(Ui)$
$Var(\hat{I_2})=\frac{\prod_{j=1}^{d}(b_j-a_j)^2}{N}Var(h(U))=\frac{V(C)^2}{N}Var(h(U))$
（V(C)即积分区域体积）
由 $Var(\hat{I_1})-Var(\hat{I_2})>0$ 可知，平均值法比随机投点法精度更高
随机投点法和平均值法的误差都是 $O(N^{-\frac{1}{2}})$ ，与维度d是线性关系不是指数关系，因此可以避免维度爆炸

3.3&3.4 非均匀抽样

$I=\int_{C}^{}h(x)dx$

重要抽样法

$\hat{I_3}=\frac{1}{N}\sum_{i=1}^{N}\frac{h(X_i)}{g(X_i)}$
$Var(\hat{I_3})=\frac{1}{N}Var(\frac{h(X)}{g(X)})$

分层抽样法

$I=\int_{C}^{}h(x)dx=\int_{C_1}+\int_{C_2}+\int_{C_3}...$
分层后，在每一层分别用平均值法或随机投点法，再把每一层的 $\hat{I}$ 加起来（一般都是用平均值法，如果有要求会专门说的，不说就默认用平均值法），公式的话PPT上的太麻烦了我简单总结一下，举个例子比如分成了A，B两层，即 $I=A+B=\int_{a}^{c}h(x)dx+\int_{c}^{b}h(x)dx$ ，则
   $\hat{A}=\frac{c-a}{\frac{c-a}{b-a}N}\sum_{i=1}^{\frac{c-a}{b-a}N}h(\frac{c-a}{b-a}U_i)$
   $\hat{B}=\frac{b-c}{\frac{b-c}{b-a}N}\sum_{i=1}^{\frac{b-c}{b-a}N}h(\frac{b-c}{b-a}+\frac{b-c}{b-a}U_i)$
   $\hat{I}=\hat{A}+\hat{B}$
$Var(\hat{I})=Var(\hat{A}+\hat{B})=Var(\hat{A})+Var(\hat{B})+2Cov(\hat{A},\hat{B})$
分多层也是一样的，注意一下，就把每一层都单独当成一个I来求，公式还是那些，灵活应变，U变成对应区间上的数就行，PPT上的例题会做就差不多了

3.5 方差缩减技术

两件事：①E(Z)=E(X)
②Var(Z)≤Var(X)

控制变量法

$E(Y)=0$ ， $Z(b)=X+bY$ ， $b=-\frac{Cov(X,Y)}{Var(Y)}$
$\hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i$
$Var(\hat{I})=\frac{1}{N}Var(Z)$
$Var(Z)=(1-\rho_{X,Y} ^{2})Var(X)$

① $E(Z)=E(X+bY)=E(X)+bE(Y)=E(X)$ ，
②由 $(1-\rho_{X,Y} ^{2})\leq 1$ ，必有 $Var(Z)\leq Var(X)$ ，达到方差缩减目的

对立变量法

$X=F^{-1}(U)$ ， $Y=F^{-1}(1-U)$ ， $Z=\frac{X+Y}{2}=\frac{F^{-1}(U)+F^{-1}(1-U)}{2}$
$\hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i$
$Var(\hat{I})=\frac{1}{N}Var(Z)$
$Var(Z)=\frac{Var(X)+Cov(X,Y)}{2}$

① $E(Z)=E(\frac{X+Y}{2})=\frac{1}{2}E(X)+\frac{1}{2}E(Y)$ ，由XY同分布得 $E(Z)=E(X)$
②由定理14.1，必有Cov(X,Y)≤0，即必有 $Var(Z)\leq \frac{1}{2}Var(X)$ ，达到方差缩减目的

条件期望法

   $Z=E(E(X|Y))$
   $\hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i$
   $Var(\hat{I})=\frac{1}{N}Var(Z)$
   $Var(Z)=Var(E(X|Y))=Var(X)-E(Var(X|Y))$

①由双期望定理， $E(Z)=E(E(X|Y))=E(X)$
②由Var(X|Y)≥0，则E(Var(X|Y))≥0，必有 $Var(Z)\leq Var(X)$ ，达到方差缩减目的

3.7 bootstrap

标准误差的bootstrap估计： $SE=\sqrt{\frac{1}{B-1}\sum_{i=1}^{B}(\hat\phi^*-\bar{\phi^ *} )^2}$

把这道作业题的过程记住就ok了，学习通作业在批改后会显示老师上传的标准答案，由于我在写这篇博文的时候学习通这门课已经无了所以找不到答案的图了......
大致过程：
根据给出的随机数生成bootstrap样本，注意这里给的随机数指的是在总体的样本中的位置，比如样本1(5,2,4,4,2,3)，其中第一个随机数5表示样本中的第5个数，也就是2,9,5,7,3,8中的3，以此类推得到B个bootstrap样本（这道题里B=5）
样本1：3,9,7,7,9,5 均值(3+9+7+7+9+5)÷6=6.67
样本2：7,9,3,9,3,7 均值(7+9+3+9+3+7)÷6=6.33
样本3：3,3,3,2,2,8 均值(3+3+3+2+2+8)÷6=3.50
样本4：9,2,7,8,7,5 均值(9+2+7+8+7+5)÷6=6.33
样本5：8,9,5,3,5,8 均值(8+9+5+3+5+8)÷6=6.33
bootstrap样本均值(6.67+6.33+3.50+6.33+6.33)÷5=5.83，即 $\bar{\phi ^*}$ =5.83
代入公式得 $SE=\sqrt{\frac{1}{5-1}[(6.67-5.83)^2+(6.33-5.83)^2+(3.50-5.83)^2+(6.33-5.83)^2+(6.33-5.83)^2]}=1.31$
（注意：题目可能会把求均值换成求中位数之类的，那么相应的就把 $\hat{\phi^*}$ 换成求每个样本的中位数就行，比如样本1中位数就是7，同理得到5个bootstrap样本的5个中位数后相加求平均值 $\bar{\phi ^*}$ ，SE公式不变直接代入即可）

3.6 随机服务系统模拟

（这章我们23级没细讲，排队系统压根没讲，往年都讲也考了，这部分我真不会，如果后续你们讲了且老师把它列到考试范围里了那就自己学一下吧，我只能说2324年都考了，目测是学了就必考的）

3.8 MCMC蒙特卡洛马尔科夫链

细致平稳 $\pi _ip_{i,j}=\pi_jp_{j,i}$

MCMC抽样

接受率 $\alpha (i,j)=\pi(j)Q(j,i)$
$\alpha (j,i)=\pi(i)Q(i,j)$
状态转移矩阵 $P(i,j)=Q(i,j)\alpha (i,j)$
$\pi(i)Q(i,j)\alpha (i,j)=\pi(i)Q(i.j)\pi(j)Q(j,i)$
$\pi(j)Q(j,i)\alpha (j,i)=\pi(j)Q(j.i)\pi(i)Q(i,j)$
因此， $\pi(i)Q(i,j)\alpha (i,j)=\pi(j)Q(j,i)\alpha (j,i)$ ，即 $\pi(i)P(i,j)=\pi(j)P(j,i)$ 满足细致平稳性
MCMC抽样步骤：
①输入我们任意选定的状态转移矩阵Q，平稳分布π(x)，设定状态转移次数阈值n1，需要的样本个数n2
②从任意简单概率分布抽样得到初始状态值x0
③for t=0 to n1+n2-1:
a)从条件概率分布Q(x|xt)中抽样得到样本 $x_*$
b)从均匀分布抽样u~U(0,1)
c)如果 $u<\alpha (x_t,x_*)=\pi(x_*)Q(x_*,x_t)$ ，则接收转移 $x_t$ → $x_*$ ，即 $x_{t+1}=x_*$
d)否则不接受转移，即 $x_{t+1}=x_t$
样本集 $(x_{n1},x_{n1+1},...,x_{n1+n2-1})$ 即为我们需要的平稳分布对应的样本集

MH抽样

接受率 $\alpha (i,j)=min\begin{Bmatrix} \frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}\ &,1 \end{Bmatrix}$
状态转移矩阵 $P(i,j)=Q(i,j)\alpha (i,j)$

当 $\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}<1$ 时， $\alpha (i,j)=\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}$ ，此时必有 $\frac{\pi(i)Q(i,j)}{\pi(j)Q(j,i)}>1$ ，即 $\alpha (j,i)=1$
$\pi(i)Q(i,j)\alpha (i,j)=\pi(i)Q(i.j)\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}=\pi(j)Q(j,i)$
$\pi(j)Q(j,i)\alpha (j,i)=\pi(j)Q(j.i)$
因此， $\pi(i)Q(i,j)\alpha (i,j)=\pi(j)Q(j,i)\alpha (j,i)$ ，即 $\pi(i)P(i,j)=\pi(j)P(j,i)$ 满足细致平稳性
MH抽样步骤：
（和MCMC基本一样，只有c) $u<\alpha (x_t,x_*)=min\begin{Bmatrix} \frac{\pi(x_*)Q(x_*,x_t)}{\pi(x_t)Q(x_t,x_*)}\ &,1 \end{Bmatrix}$ 这一步换成这个，其他不变）

Gibbs抽样

第一维相同的两个点满足细致平稳性证明：
$A(x_1^{(1)},x_2^{(1)})$ 和 $B(x_1^{(1)},x_2^{(2)})$ ，由条件分布 $\pi(x,y)=\pi(x)\pi(y|x)=\pi(y)\pi(x|y)$ 得
$\pi(A)=\pi(x_1^{(1)},x_2^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})$
$\pi(B)=\pi(x_1^{(1)},x_2^{(2)})=\pi(x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})$
由此，对两个式子分别乘不同的部分，得到
$\pi(A)\pi(x_2^{(2)}|x_1^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})$
$\pi(B)\pi(x_2^{(1)}|x_1^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})$
可见两个式子右边相等，即有 $\pi(A)\pi(x_2^{(2)}|x_1^{(1)})=\pi(B)\pi(x_2^{(1)}|x_1^{(1)})$
第二维相同的两个点A、C同理
一个技巧：把相同的那一维提出来，也就是把相同的那一个维度放到|后面，互相乘的时候竖线|前面是对方的、后面是两个点相同的，自己推导几遍就会了，还是很有趣的。死记硬背不可取！
状态转移矩阵P：
$P(A\rightarrow B)=\pi(x_2^{(B)}|x_1^{(1)})$ if $x_1^{(A)}=x_1^{(B)}=x_1^{(1)}$
$P(A\rightarrow C)=\pi(x_1^{(C)}|x_2^{(1)})$ if $x_2^{(A)}=x_2^{(C)}=x_2^{(1)}$
$P(A\rightarrow D)=0$ else
二维Gibbs抽样步骤：
①输入平稳分布π(x1,x2)，设定状态转移次数阈值n1，需要的样本个数n2
②随机初始化初始状态值 $x_1^{(0)}$ 和 $x_2^{(0)}$
③for t=0 to n1+n2-1:
a)从条件概率分布 $P(x_1|x_2^{(t)})$ 中抽样得到样本 $x_1^{t+1}$
b)从条件概率分布 $P(x_2|x_1^{(t+1)})$ 中抽样得到样本 $x_2^{t+1}$
样本集 $\begin{Bmatrix} (x_1^{(n1)},x_2^{(n1)}),(x_1^{(n1+1)},x_2^{(n1+1)}),...,(x_1^{(n1+n2-1)},x_2^{(n1+n2-1)}) \end{Bmatrix}$ 即为平稳分布对应的样本集

4 最大似然和EM算法

总共就三道例题，全背下来吧，23年双因素模型，24年三硬币模型，25年AB硬币，三道例题考了一轮了，猜猜26年考哪道？

双因素模型

设双因素模型 $x_{ij}=\mu +\alpha _i+\beta _j+\epsilon _{ij}$ ，则 $x_{ij}$ ~N(μ+αi+βj，σ^2）
（1）最大似然估计：
似然函数

（2）EM（题目会告诉你，假设有 $\hat{x_{23}}$ 初值，迭代一步，此时可以当成完全数据，用EM算法迭代）

①给定初始 $\hat{x_{23}}$
②用完全数据的公式，求得 $\hat{\mu }$ ， $\hat{\alpha _i}$ ， $\hat{\beta _{j}}$ ，以此计算新的 $\hat{x_{23}}=\hat\mu +\hat{\alpha _2}+\hat\beta _3$ ，这就是迭代一步

AB硬币

（1）图a，即知道是哪个硬币、且知道正反面次数，直接用最大似然估计求θA、θB即可
$\theta =\frac{H}{H+T}$ ，即正面次数÷总次数
（2）图b，即不知道是哪个硬币，只知道正反面次数，用EM算法
①给定随机初始值θA，θB
②E步：对每个样本，用初始值θA、θB分别计算其由A、B硬币抛出的概率，公式为 $P(A|H)=\frac{\theta _A^{H}(1-\theta _A)^{T}}{\theta _A^{H}(1-\theta _A)^{T}+\theta _B^{H}(1-\theta _B)^{T}}$ ， $P(B|H)=\frac{\theta _B^{H}(1-\theta _B)^{T}}{\theta _A^{H}(1-\theta _A)^{T}+\theta _B^{H}(1-\theta _B)^{T}}$ ，同时P(B|H)=1-P(A|H)，其中H、T分别表示正面、背面的次数
计算期望，A：正面H： $\sum P(A|H) \theta _A$ ，反面T： $\sum P(A|H)(1- \theta _A)$
B：正面H： $\sum P(B|H) \theta _B$ ，反面T： $\sum P(B|H)(1- \theta _B)$
③M步： $\hat{\theta _A}=\frac{\sum P(A|H) \theta _A}{\sum P(A|H) \theta _A+\sum P(A|H) (1-\theta _A)}$
$\hat{\theta _B}=\frac{\sum P(B|H) \theta _B}{\sum P(B|H) \theta _B+\sum P(B|H) (1-\theta _B)}$
④和上一步的θ比较，接近则停，差得多就继续回到②再次迭代（考试一般只迭代一步就行）

结合PPT题目图片的样本数据带大家解一遍，记住计算过程碰到新的数也会算就行，前面的那些式子都是我自己总结的非官方不用背：
样本H1：5H5T
样本H2：9H1T
样本H3：8H2T
样本H4：4H6T
样本H5：7H3T
①初始值 $\theta _A=0.6$ ， $\theta _B=0.5$ ，则 $1-\theta _A=0.4$ ， $1-\theta _B=0.5$
②E步：
样本H1： $P(A|H_1)=\frac{0.6^5\times 0.4^5}{0.6^5\times 0.4^5+0.5^5\times 0.5^5}=0.45$
   $P(B|H_1)=\frac{0.5^5\times 0.5^5}{0.6^5\times 0.4^5+0.5^5\times 0.5^5}=0.55$
样本H2： $P(A|H_2)=\frac{0.6^9\times 0.4^1}{0.6^9\times 0.4^1+0.5^9\times 0.5^1}=0.80$
   $P(B|H_2)=\frac{0.5^9\times 0.5^1}{0.6^9\times 0.4^1+0.5^9\times 0.5^1}=0.20$
样本H3： $P(A|H_3)=\frac{0.6^8\times 0.4^2}{0.6^8\times 0.4^2+0.5^8\times 0.5^2}=0.73$
   $P(B|H_3)=\frac{0.5^8\times 0.5^2}{0.6^8\times 0.4^2+0.5^8\times 0.5^2}=0.27$
样本H4： $P(A|H_4)=\frac{0.6^4\times 0.4^6}{0.6^4\times 0.4^6+0.5^4\times 0.5^6}=0.35$
   $P(B|H_4)=\frac{0.5^4\times 0.5^6}{0.6^4\times 0.4^6+0.5^4\times 0.5^6}=0.65$
样本H5： $P(A|H_5)=\frac{0.6^7\times 0.4^3}{0.6^7\times 0.4^3+0.5^7\times 0.5^3}=0.65$
   $P(B|H_5)=\frac{0.5^7\times 0.5^3}{0.6^7\times 0.4^3+0.5^7\times 0.5^3}=0.35$
A：正面H：0.45×5+0.80×9+0.73×8+0.35×4+0.65×7=21.3
反面T：0.45×5+0.80×1+0.73×2+0.35×6+0.65×3=8.6
B：正面H：0.55×5+0.20×9+0.27×8+0.65×4+0.35×7=11.7
反面T：0.55×5+0.20×1+0.27×2+0.65×6+0.35×3=8.4
③M步：
$\hat{\theta_A}=\frac{21.3}{21.3+8.6}=0.71$
$\hat{\theta_B}=\frac{11.7}{11.7+8.4}=0.58$
④和上一步得到的θ比较，接近则停止，差得多则继续迭代（考试只要求迭代一步的话就不用比较，直接结束就行）

三硬币模型

观测数据Y，未观测数据Z
似然函数 $P(Y|\theta )=\sum_{z}^{}P(Z|\theta)P(Y|Z,\theta)$
即： $P(Y|\theta)=\prod_{j=1}^{n}[\pi p^{y_j}(1-p)^{1-y_j}+(1-\pi) q^{y_j}(1-q)^{1-y_j}]$
极大似然估计： $\hat{\theta}=argmax logP(Y|\theta)$
该问题没有解析解，使用EM迭代法：

选取初值： $\theta^{(0)}=(\pi^{(0)},p^{(0)},q^{(0)})$
第i步的估计值： $\theta^{(i)}=(\pi^{(i)},p^{(i)},q^{(i)})$
EM算法第i+1次迭代：
E步：计算在模型参数 $\pi^{(i)},p^{(i)},q^{(i)}$ 下观测数据yj来自掷硬币B的概率：
$\mu _j^{(i+1)}=\frac{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{(1-y_j)}}{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{(1-y_j)}+(1-\pi^{(i)})(q^{(i)})^{y_j}(1-q^{(i)})^{(1-y_j)}}$
M步: 计算模型参数的新估计值
$\pi^{(i+1)}=\frac{1}{n}\sum_{j=1}^{n}\mu _j^{(i+1)}$
$p^{(i+1)}=\frac{\sum_{j=1}^{n}\mu _j^{(i+1)}y_j}{\sum_{j=1}^{n}\mu _j^{(i+1)}}$
$q^{(i+1)}=\frac{\sum_{j=1}^{n}(1-\mu _j^{(i+1)})y_j}{\sum_{j=1}^{n}(1-\mu _j^{(i+1)})}$