吉林大学统计计算期末复习 必会知识点总结

接下来大概总结一下每一章考的概率比较大的知识点。
还是那句话,想好好学考高分就认真看学在吉大录课听老师讲,只想及格突击学的话把这篇全背下来且会用能保你及格,有很多更细节的知识点和证明过程就不写在这里了,可能后续会再出有更多细节的复习资料吧,也可能懒了就不会再出了。整门课学下来感觉不是很难,但是需要理解记忆的东西挺多的,死记硬背不可取,理解了自然就记住了。
除了EM那一章大部分从PPT里抓取原图,其他全是手打的,可能会有笔误之处,欢迎评论留言捉虫,如果看到有哪些和PPT、和老师讲的不一样的,以PPT为准,因为大概率是我这个笨蛋打错了

2.2 线性同余发生器

\left\{\begin{matrix} x_n{}=(ax_{n-1}+c)(mod M),n=1,2,...\\ Rn=\frac{x_n{}}{M} \end{matrix}\right.
混合同余发生器:c>0
乘同余发生器:c=0
同余性质:①i≡j(mod M)\Leftrightarrowj≡i(mod M)
                  ②若i≡j(mod M),j≡k(mod M) 则i≡k(mod M)
                  ③若i1≡j1(mod M),i2≡j2(mod M) 则i1±i2≡j1±j2(mod M);i1i2≡j1j2(mod M)
                  ④若ik≡jk(mod M)(k为正整数),则i≡j(mod \frac{M}{gcd(M,k)}),其中gcd(M,k)表示M和k的最大公约数

2.3 非均匀随机数的产生

逆变换法

  离散型:推导密度函数p_{k+1}=...p_{k},由此F(k+1)=F(k)+p_{k+1}=F(k)+...p_k
  连续型:已知密度函数p(x),求分布函数F(x)=\int p(x)dx,求分布函数逆函数F^{-1}(x),随机取U~U(0,1),解F(x)=U,即x=F^{-1}(U)

舍选法I

已知密度函数p(x),求导数p'(x),令导数p'(x)=0解出x,代入求maxp(x),则M=maxp(x),求M(b-a)即为算法所需迭代次数

复合法

①U1~U(0,1),根据U1的值选择子分布
②U2~U(0,1),根据①选择的子分布代入U2,用逆变换法之类的方法生成随机数

2.4 随机向量的产生

条件分布法
p(x_1,x_2,...,x_r)=p(x_1)p(x_2|x_1)p(x_3|x_1,x_2)...p(x_r|x_1,x_2,...,x_{r-1})

  步骤:①生成X1
             ②由已知X1的值服从条件分布p(X2|X1),产生X2
             ③由已知X1,X2的值服从条件分布p(X3|X1,X2),产生X3
             ④重复,直到产生Xr

多项分布

  步骤:①由X1~B(n,p1),产生X1=x1
             ②由X2~B(n-x1,\frac{p_{2}}{1-p1}),产生X2=x2
             ③由X3~B(n-x1-x2,\frac{p3}{1-p1-p2}),产生X3=x3
             ④重复,直到产生Xr

3.2 随机模拟积分 均匀抽样

  双期望定理 E[E(X|Y)]=E(X)
  方差分解公式 Var(X)=E[Var(X|Y)]-Var[E(X|Y)]
  条件方差公式 Var(X|Y)=E(X^{2}|Y)-(E(X|Y))^{2}

   I=\int_{a}^{b}h(x)dx

  随机投点法

      \hat{I}=\hat{p}M(b-a)
      Var(\hat{I})=\frac{[M(b-a)]^{2}p(1-p)}{N}              

  平均值法

      \hat{I}=\frac{b-a}{n}\sum_{i=1}^{N}h(Ui)
      Var(\hat{I})=\frac{(b-a)^2}{N}Var(h(U))

  高维定积分 I=\int_{a_d}^{b_d}...\int_{a_2}^{b_2}\int_{a_1}^{b_1}h(x_1,x_2,...,x_d)dx_1dx_2...dx_d

    随机投点法 \hat{I_1}=\hat{p}M\prod_{j=1}^{d}(b_j-a_j)=\hat{p}MV(C)
                        Var(\hat{I_1})=\frac{[M\prod_{j=1}^{d}(b_j-a_j)]^{2}p(1-p)}{N}=\frac{[MV(C)]^{2}p(1-p)}{N}

    平均值法 \hat{I_2}=\frac{\prod_{j=1}^{d}(b_j-a_j)}{n}\sum_{i=1}^{N}h(Ui)=\frac{V(C)}{n}\sum_{i=1}^{N}h(Ui)
                  Var(\hat{I_2})=\frac{\prod_{j=1}^{d}(b_j-a_j)^2}{N}Var(h(U))=\frac{V(C)^2}{N}Var(h(U))
    (V(C)即积分区域体积)
    由 Var(\hat{I_1})-Var(\hat{I_2})>0可知,平均值法比随机投点法精度更高
    随机投点法和平均值法的误差都是O(N^{-\frac{1}{2}}),与维度d是线性关系不是指数关系,因此可以避免维度爆炸

3.3&3.4 非均匀抽样

    I=\int_{C}^{}h(x)dx
  重要抽样法

    \hat{I_3}=\frac{1}{N}\sum_{i=1}^{N}\frac{h(X_i)}{g(X_i)}
    Var(\hat{I_3})=\frac{1}{N}Var(\frac{h(X)}{g(X)})     

  分层抽样法

     I=\int_{C}^{}h(x)dx=\int_{C_1}+\int_{C_2}+\int_{C_3}...
    分层后,在每一层分别用平均值法或随机投点法,再把每一层的\hat{I}加起来(一般都是用平均值法,如果有要求会专门说的,不说就默认用平均值法),公式的话PPT上的太麻烦了我简单总结一下,举个例子比如分成了A,B两层,即I=A+B=\int_{a}^{c}h(x)dx+\int_{c}^{b}h(x)dx,则
    \hat{A}=\frac{c-a}{\frac{c-a}{b-a}N}\sum_{i=1}^{\frac{c-a}{b-a}N}h(\frac{c-a}{b-a}U_i)
    \hat{B}=\frac{b-c}{\frac{b-c}{b-a}N}\sum_{i=1}^{\frac{b-c}{b-a}N}h(\frac{b-c}{b-a}+\frac{b-c}{b-a}U_i)
    \hat{I}=\hat{A}+\hat{B}
     Var(\hat{I})=Var(\hat{A}+\hat{B})=Var(\hat{A})+Var(\hat{B})+2Cov(\hat{A},\hat{B})
分多层也是一样的,注意一下,就把每一层都单独当成一个I来求,公式还是那些,灵活应变,U变成对应区间上的数就行,PPT上的例题会做就差不多了

3.5 方差缩减技术

  两件事:①E(Z)=E(X)
                 ②Var(Z)≤Var(X)

  控制变量法

     E(Y)=0Z(b)=X+bYb=-\frac{Cov(X,Y)}{Var(Y)}
     \hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i
     Var(\hat{I})=\frac{1}{N}Var(Z)
     Var(Z)=(1-\rho_{X,Y} ^{2})Var(X)

     ①E(Z)=E(X+bY)=E(X)+bE(Y)=E(X)
    ②由(1-\rho_{X,Y} ^{2})\leq 1,必有Var(Z)\leq Var(X),达到方差缩减目的

  对立变量法

     X=F^{-1}(U)Y=F^{-1}(1-U)Z=\frac{X+Y}{2}=\frac{F^{-1}(U)+F^{-1}(1-U)}{2}
     \hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i
     Var(\hat{I})=\frac{1}{N}Var(Z)
    Var(Z)=\frac{Var(X)+Cov(X,Y)}{2}

    ①E(Z)=E(\frac{X+Y}{2})=\frac{1}{2}E(X)+\frac{1}{2}E(Y),由XY同分布得E(Z)=E(X)
    ②由定理14.1,必有Cov(X,Y)≤0,即必有Var(Z)\leq \frac{1}{2}Var(X),达到方差缩减目的

  条件期望法

    Z=E(E(X|Y))
    \hat{I}=\frac{1}{N}\sum_{i=1}^{N}Z_i
    Var(\hat{I})=\frac{1}{N}Var(Z)
    Var(Z)=Var(E(X|Y))=Var(X)-E(Var(X|Y))  

    ①由双期望定理,E(Z)=E(E(X|Y))=E(X)
    ②由Var(X|Y)≥0,则E(Var(X|Y))≥0,必有Var(Z)\leq Var(X),达到方差缩减目的

3.7 bootstrap

标准误差的bootstrap估计:SE=\sqrt{\frac{1}{B-1}\sum_{i=1}^{B}(\hat\phi^*-\bar{\phi^ *} )^2}


把这道作业题的过程记住就ok了,学习通作业在批改后会显示老师上传的标准答案,由于我在写这篇博文的时候学习通这门课已经无了所以找不到答案的图了......
大致过程:
根据给出的随机数生成bootstrap样本,注意这里给的随机数指的是在总体的样本中的位置,比如样本1(5,2,4,4,2,3),其中第一个随机数5表示样本中的第5个数,也就是2,9,5,7,3,8中的3,以此类推得到B个bootstrap样本(这道题里B=5)
样本1:3,9,7,7,9,5 均值(3+9+7+7+9+5)÷6=6.67
样本2:7,9,3,9,3,7 均值(7+9+3+9+3+7)÷6=6.33
样本3:3,3,3,2,2,8 均值(3+3+3+2+2+8)÷6=3.50
样本4:9,2,7,8,7,5 均值(9+2+7+8+7+5)÷6=6.33
样本5:8,9,5,3,5,8 均值(8+9+5+3+5+8)÷6=6.33
bootstrap样本均值(6.67+6.33+3.50+6.33+6.33)÷5=5.83,即\bar{\phi ^*}=5.83
代入公式得SE=\sqrt{\frac{1}{5-1}[(6.67-5.83)^2+(6.33-5.83)^2+(3.50-5.83)^2+(6.33-5.83)^2+(6.33-5.83)^2]}=1.31
(注意:题目可能会把求均值换成求中位数之类的,那么相应的就把\hat{\phi^*}换成求每个样本的中位数就行,比如样本1中位数就是7,同理得到5个bootstrap样本的5个中位数后相加求平均值\bar{\phi ^*},SE公式不变直接代入即可)

3.6 随机服务系统模拟

(这章我们23级没细讲,排队系统压根没讲,往年都讲也考了,这部分我真不会,如果后续你们讲了且老师把它列到考试范围里了那就自己学一下吧,我只能说2324年都考了,目测是学了就必考的)

3.8 MCMC蒙特卡洛马尔科夫链

  细致平稳 \pi _ip_{i,j}=\pi_jp_{j,i}

  MCMC抽样

    接受率\alpha (i,j)=\pi(j)Q(j,i)
               \alpha (j,i)=\pi(i)Q(i,j)
    状态转移矩阵P(i,j)=Q(i,j)\alpha (i,j)
     \pi(i)Q(i,j)\alpha (i,j)=\pi(i)Q(i.j)\pi(j)Q(j,i)
    \pi(j)Q(j,i)\alpha (j,i)=\pi(j)Q(j.i)\pi(i)Q(i,j)
    因此,\pi(i)Q(i,j)\alpha (i,j)=\pi(j)Q(j,i)\alpha (j,i),即\pi(i)P(i,j)=\pi(j)P(j,i)满足细致平稳性
    MCMC抽样步骤:
    ①输入我们任意选定的状态转移矩阵Q,平稳分布π(x),设定状态转移次数阈值n1,需要的样本个数n2
    ②从任意简单概率分布抽样得到初始状态值x0
    ③for t=0 to n1+n2-1:
          a)从条件概率分布Q(x|xt)中抽样得到样本x_*
          b)从均匀分布抽样u~U(0,1)
          c)如果u<\alpha (x_t,x_*)=\pi(x_*)Q(x_*,x_t),则接收转移x_tx_*,即x_{t+1}=x_*
          d)否则不接受转移,即x_{t+1}=x_t
    样本集(x_{n1},x_{n1+1},...,x_{n1+n2-1})即为我们需要的平稳分布对应的样本集

  MH抽样

    接受率\alpha (i,j)=min\begin{Bmatrix} \frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}\ &,1 \end{Bmatrix}
    状态转移矩阵P(i,j)=Q(i,j)\alpha (i,j)

    当\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}<1时,\alpha (i,j)=\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)},此时必有\frac{\pi(i)Q(i,j)}{\pi(j)Q(j,i)}>1,即\alpha (j,i)=1
    \pi(i)Q(i,j)\alpha (i,j)=\pi(i)Q(i.j)\frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}=\pi(j)Q(j,i)
     \pi(j)Q(j,i)\alpha (j,i)=\pi(j)Q(j.i)
    因此,\pi(i)Q(i,j)\alpha (i,j)=\pi(j)Q(j,i)\alpha (j,i),即\pi(i)P(i,j)=\pi(j)P(j,i)满足细致平稳性
    MH抽样步骤:
    (和MCMC基本一样,只有c)u<\alpha (x_t,x_*)=min\begin{Bmatrix} \frac{\pi(x_*)Q(x_*,x_t)}{\pi(x_t)Q(x_t,x_*)}\ &,1 \end{Bmatrix}这一步换成这个,其他不变)

  Gibbs抽样

    第一维相同的两个点满足细致平稳性证明:
     A(x_1^{(1)},x_2^{(1)})B(x_1^{(1)},x_2^{(2)}),由条件分布\pi(x,y)=\pi(x)\pi(y|x)=\pi(y)\pi(x|y)
     \pi(A)=\pi(x_1^{(1)},x_2^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})
     \pi(B)=\pi(x_1^{(1)},x_2^{(2)})=\pi(x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})
     由此,对两个式子分别乘不同的部分,得到
     \pi(A)\pi(x_2^{(2)}|x_1^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})
     \pi(B)\pi(x_2^{(1)}|x_1^{(1)})=\pi(x_1^{(1)})\pi(x_2^{(2)}|x_1^{(1)})\pi(x_2^{(1)}|x_1^{(1)})
    可见两个式子右边相等,即有\pi(A)\pi(x_2^{(2)}|x_1^{(1)})=\pi(B)\pi(x_2^{(1)}|x_1^{(1)})
    第二维相同的两个点A、C同理
一个技巧:把相同的那一维提出来,也就是把相同的那一个维度放到|后面,互相乘的时候竖线|前面是对方的、后面是两个点相同的,自己推导几遍就会了,还是很有趣的。死记硬背不可取!
    状态转移矩阵P:
      P(A\rightarrow B)=\pi(x_2^{(B)}|x_1^{(1)}) if x_1^{(A)}=x_1^{(B)}=x_1^{(1)}
      P(A\rightarrow C)=\pi(x_1^{(C)}|x_2^{(1)}) if x_2^{(A)}=x_2^{(C)}=x_2^{(1)}
       P(A\rightarrow D)=0 else
    二维Gibbs抽样步骤:
    ①输入平稳分布π(x1,x2),设定状态转移次数阈值n1,需要的样本个数n2
    ②随机初始化初始状态值x_1^{(0)}x_2^{(0)}
    ③for t=0 to n1+n2-1:
          a)从条件概率分布P(x_1|x_2^{(t)})中抽样得到样本x_1^{t+1}
          b)从条件概率分布P(x_2|x_1^{(t+1)})中抽样得到样本x_2^{t+1}
    样本集\begin{Bmatrix} (x_1^{(n1)},x_2^{(n1)}),(x_1^{(n1+1)},x_2^{(n1+1)}),...,(x_1^{(n1+n2-1)},x_2^{(n1+n2-1)}) \end{Bmatrix}即为平稳分布对应的样本集

4 最大似然和EM算法

      总共就三道例题,全背下来吧,23年双因素模型,24年三硬币模型,25年AB硬币,三道例题考了一轮了,猜猜26年考哪道?

双因素模型
 


      设双因素模型x_{ij}=\mu +\alpha _i+\beta _j+\epsilon _{ij},则x_{ij}~N(μ+αi+βj,σ^2)
      (1)最大似然估计:
               似然函数







(2)EM(题目会告诉你,假设有\hat{x_{23}}初值,迭代一步,此时可以当成完全数据,用EM算法迭代)


①给定初始\hat{x_{23}}
②用完全数据的公式,求得\hat{\mu }\hat{\alpha _i}\hat{\beta _{j}},以此计算新的\hat{x_{23}}=\hat\mu +\hat{\alpha _2}+\hat\beta _3,这就是迭代一步

AB硬币


(1)图a,即知道是哪个硬币、且知道正反面次数,直接用最大似然估计求θA、θB即可
          \theta =\frac{H}{H+T},即正面次数÷总次数
(2)图b,即不知道是哪个硬币,只知道正反面次数,用EM算法
         ①给定随机初始值θA,θB
         ②E步:对每个样本,用初始值θA、θB分别计算其由A、B硬币抛出的概率,公式为P(A|H)=\frac{\theta _A^{H}(1-\theta _A)^{T}}{\theta _A^{H}(1-\theta _A)^{T}+\theta _B^{H}(1-\theta _B)^{T}}P(B|H)=\frac{\theta _B^{H}(1-\theta _B)^{T}}{\theta _A^{H}(1-\theta _A)^{T}+\theta _B^{H}(1-\theta _B)^{T}},同时P(B|H)=1-P(A|H),其中H、T分别表示正面、背面的次数
         计算期望,A:正面H:\sum P(A|H) \theta _A,反面T:\sum P(A|H)(1- \theta _A)
                           B:正面H:\sum P(B|H) \theta _B,反面T:\sum P(B|H)(1- \theta _B)
         ③M步:\hat{\theta _A}=\frac{\sum P(A|H) \theta _A}{\sum P(A|H) \theta _A+\sum P(A|H) (1-\theta _A)}
                      \hat{\theta _B}=\frac{\sum P(B|H) \theta _B}{\sum P(B|H) \theta _B+\sum P(B|H) (1-\theta _B)}
         ④和上一步的θ比较,接近则停,差得多就继续回到②再次迭代(考试一般只迭代一步就行)

结合PPT题目图片的样本数据带大家解一遍,记住计算过程碰到新的数也会算就行,前面的那些式子都是我自己总结的非官方不用背
        样本H1:5H5T
        样本H2:9H1T
        样本H3:8H2T
        样本H4:4H6T
        样本H5:7H3T
        ①初始值\theta _A=0.6\theta _B=0.5,则1-\theta _A=0.41-\theta _B=0.5
        ②E步:
           样本H1:P(A|H_1)=\frac{0.6^5\times 0.4^5}{0.6^5\times 0.4^5+0.5^5\times 0.5^5}=0.45
                          P(B|H_1)=\frac{0.5^5\times 0.5^5}{0.6^5\times 0.4^5+0.5^5\times 0.5^5}=0.55
           样本H2:P(A|H_2)=\frac{0.6^9\times 0.4^1}{0.6^9\times 0.4^1+0.5^9\times 0.5^1}=0.80
                          P(B|H_2)=\frac{0.5^9\times 0.5^1}{0.6^9\times 0.4^1+0.5^9\times 0.5^1}=0.20
           样本H3:P(A|H_3)=\frac{0.6^8\times 0.4^2}{0.6^8\times 0.4^2+0.5^8\times 0.5^2}=0.73
                          P(B|H_3)=\frac{0.5^8\times 0.5^2}{0.6^8\times 0.4^2+0.5^8\times 0.5^2}=0.27
           样本H4:P(A|H_4)=\frac{0.6^4\times 0.4^6}{0.6^4\times 0.4^6+0.5^4\times 0.5^6}=0.35
                          P(B|H_4)=\frac{0.5^4\times 0.5^6}{0.6^4\times 0.4^6+0.5^4\times 0.5^6}=0.65
           样本H5:P(A|H_5)=\frac{0.6^7\times 0.4^3}{0.6^7\times 0.4^3+0.5^7\times 0.5^3}=0.65
                          P(B|H_5)=\frac{0.5^7\times 0.5^3}{0.6^7\times 0.4^3+0.5^7\times 0.5^3}=0.35
           A:正面H:0.45×5+0.80×9+0.73×8+0.35×4+0.65×7=21.3
                 反面T:0.45×5+0.80×1+0.73×2+0.35×6+0.65×3=8.6
           B:正面H:0.55×5+0.20×9+0.27×8+0.65×4+0.35×7=11.7
                 反面T:0.55×5+0.20×1+0.27×2+0.65×6+0.35×3=8.4
        ③M步:
           \hat{\theta_A}=\frac{21.3}{21.3+8.6}=0.71
           \hat{\theta_B}=\frac{11.7}{11.7+8.4}=0.58
         ④和上一步得到的θ比较,接近则停止,差得多则继续迭代(考试只要求迭代一步的话就不用比较,直接结束就行)

三硬币模型


观测数据Y,未观测数据Z
似然函数P(Y|\theta )=\sum_{z}^{}P(Z|\theta)P(Y|Z,\theta)
即:P(Y|\theta)=\prod_{j=1}^{n}[\pi p^{y_j}(1-p)^{1-y_j}+(1-\pi) q^{y_j}(1-q)^{1-y_j}]
极大似然估计:\hat{\theta}=argmax logP(Y|\theta)
该问题没有解析解,使用EM迭代法:

选取初值:\theta^{(0)}=(\pi^{(0)},p^{(0)},q^{(0)})
第i步的估计值:\theta^{(i)}=(\pi^{(i)},p^{(i)},q^{(i)})
EM算法第i+1次迭代:
      E步:计算在模型参数\pi^{(i)},p^{(i)},q^{(i)}下观测数据yj来自掷硬币B的概率:
               \mu _j^{(i+1)}=\frac{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{(1-y_j)}}{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{(1-y_j)}+(1-\pi^{(i)})(q^{(i)})^{y_j}(1-q^{(i)})^{(1-y_j)}}
      M步: 计算模型参数的新估计值
               \pi^{(i+1)}=\frac{1}{n}\sum_{j=1}^{n}\mu _j^{(i+1)}
               p^{(i+1)}=\frac{\sum_{j=1}^{n}\mu _j^{(i+1)}y_j}{\sum_{j=1}^{n}\mu _j^{(i+1)}}
              q^{(i+1)}=\frac{\sum_{j=1}^{n}(1-\mu _j^{(i+1)})y_j}{\sum_{j=1}^{n}(1-\mu _j^{(i+1)})}

以上,就是统计计算这学科必会知识点总结,注意,这一篇的内容不可能覆盖全部考点,尤其是简答题老师总能找到一些以为大家都会的小问题来考一考,当年自以为什么细节都看到过的我拿到卷子就被25年简答第一题的EDA单防住了哈哈......

bootstrap大概率作业原题形式,改个数,把均值换成中位数之类的,有平方和开放记得带计算器

最后一题EM大概率就是三道例题里面随机出一道,把上面列的过程全背下来,带好计算器多验算几遍,过程写满至少能给你一半分吧?答案都给你了,想要分就背下来考场上默写稳拿过程分,想要分高就要会用,不止能背下来还要能做对,多看录课,不会做的题、做完不确定对不对的,请记住现在AI很发达

可能之后会出按章节更细节讲解的内容,也可能不会再出了,第一次尝试写课程复习材料,真的要老眼昏花了,纯粹是刚放假几天闲来无事,过几天可能就要去为生活奋斗了,也就不会再写了。相信我,把录课从头到尾看下来学明白,你会受益匪浅的

感谢看到这里的所有人,祝看完这篇的同学们全都能考到自己理想的分数!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值