八股文·概率论与数理统计

文章目录

概率论

随机变量 vs 变量

  • 取值不确定的变量叫做随机变量

联合概率

  • 推广到多个随机变量的情况。设有随机变量:

X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn

离散型随机变量:单点有效

如果 (X_1,X_2,\cdots,X_n) 都是离散型随机变量,那么它们的概率质量函数pmf为:

P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ) P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n) P(X1=x1,X2=x2,,Xn=xn)
也可以简写为:

P ( x 1 , x 2 , ⋯   , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,,xn)

连续型随机变量:区域面积有效

如果 (X_1,X_2,\cdots,X_n) 是连续型随机变量,通常讨论联合概率密度函数pdf

f ( x 1 , x 2 , ⋯   , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,,xn)

此时,某个区域 (D) 内的联合概率为:

P ( ( X 1 , ⋯   , X n ) ∈ D ) = ∫ D f ( x 1 , ⋯   , x n ) , d x 1 ⋯ d x n P((X_1,\cdots,X_n)\in D)=\int_D f(x_1,\cdots,x_n),dx_1\cdots dx_n P((X1,,Xn)D)=Df(x1,,xn),dx1dxn

因此连续型情况下主要看“区间”或“区域”的概率

边缘概率:忽略不感兴趣的变量

  • 边缘概率表示:只关心其中一部分随机变量,忽略其它随机变量。

离散型随机变量

  • 一般地,若有 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn只保留前 k k k 个变量,则:

P ( x 1 , ⋯   , x k ) = ∑ x k + 1 ⋯ ∑ x n P ( x 1 , ⋯   , x k , x k + 1 , ⋯   , x n ) P(x_1,\cdots,x_k)=\sum_{x_{k+1}}\cdots\sum_{x_n}P(x_1,\cdots,x_k,x_{k+1},\cdots,x_n) P(x1,,xk)=xk+1xnP(x1,,xk,xk+1,,xn)
这就是离散型变量的边缘化

连续型随机变量

如果 (X,Y,Z) 是连续型随机变量,联合密度为:

f X , Y , Z ( x , y , z ) f_{X,Y,Z}(x,y,z) fX,Y,Z(x,y,z)

那么 (X) 的边缘密度为:

f X ( x ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d y , d z f_X(x)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dy,dz fX(x)=++fX,Y,Z(x,y,z),dy,dz

如果只消去 (Z),保留 (X,Y),则:

f X , Y ( x , y ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d z f_{X,Y}(x,y)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dz fX,Y(x,y)=+fX,Y,Z(x,y,z),dz

条件概率:在部分变量已知时,另一些变量的概率

  • 条件概率表示:已知某些随机变量的取值后,另一些随机变量取某些值的概率。

离散型随机变量

更一般地,若把变量分成两组:

X = ( X 1 , ⋯   , X k ) , Y = ( Y 1 , ⋯   , Y m ) X=(X_1,\cdots,X_k),\quad Y=(Y_1,\cdots,Y_m) X=(X1,,Xk),Y=(Y1,,Ym)

则:

P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x\mid Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)} P(X=xY=y)=P(Y=y)P(X=x,Y=y)

其中:

P ( Y = y ) = ∑ x P ( X = x , Y = y ) P(Y=y)=\sum_x P(X=x,Y=y) P(Y=y)=xP(X=x,Y=y)

连续型随机变量

连续型变量中,对应的是条件密度

如果有联合密度:

f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y)

那么条件密度为:

f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)} fXY(xy)=fY(y)fX,Y(x,y)

其中:

f Y ( y ) = ∫ − ∞ + ∞ f X , Y ( x , y ) , d x f_Y(y)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y),dx fY(y)=+fX,Y(x,y),dx

如果有三个连续变量 (X,Y,Z),则:

f X ∣ Y , Z ( x ∣ y , z ) = f X , Y , Z ( x , y , z ) f Y , Z ( y , z ) f_{X\mid Y,Z}(x\mid y,z)=\frac{f_{X,Y,Z}(x,y,z)}{f_{Y,Z}(y,z)} fXY,Z(xy,z)=fY,Z(y,z)fX,Y,Z(x,y,z)

其中:

f Y , Z ( y , z ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d x f_{Y,Z}(y,z)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dx fY,Z(y,z)=+fX,Y,Z(x,y,z),dx

条件概率公式:条件 = 联合 / 边缘

概率论的链式法则

一般地,对于 (n) 个随机变量,有链式法则:

P ( X 1 , ⋯   , X n ) = P ( X 1 ∣ X 2 , ⋯   , X n ) P ( X 2 ∣ X 3 , ⋯   , X n ) ⋯ P ( X n − 1 ∣ X n ) P ( X n ) P(X_1,\cdots,X_n)=P(X_1\mid X_2,\cdots,X_n)P(X_2\mid X_3,\cdots,X_n)\cdots P(X_{n-1}\mid X_n)P(X_n) P(X1,,Xn)=P(X1X2,,Xn)P(X2X3,,Xn)P(Xn1Xn)P(Xn)

也常写成另一种顺序:

P ( X 1 , ⋯   , X n ) = P ( X 1 ) ∏ i = 2 n P ( X i ∣ X 1 , ⋯   , X i − 1 ) P(X_1,\cdots,X_n)=P(X_1)\prod_{i=2}^{n}P(X_i\mid X_1,\cdots,X_{i-1}) P(X1,,Xn)=P(X1)i=2nP(XiX1,,Xi1)

贝叶斯公式

含义1:条件-联合-边缘概率转换公式

P ( X ∣ Y ) = P ( X , Y ) P ( Y ) \begin{align}P(\mathbf{X}\mid\mathbf{Y})=\frac{P(\mathbf{X},\mathbf{Y})}{P(\mathbf{Y})}\end{align} P(XY)=P(Y)P(X,Y)

含义2:先验和后验公式

P ( X = x ∣ Y = y ) = P ( Y = y ∣ X = x ) P ( X = x ) P ( Y = y ) \begin{align} P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y}) =\frac{ P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})P(\mathbf{X}=\mathbf{x}) }{ P(\mathbf{Y}=\mathbf{y}) } \end{align} P(X=xY=y)=P(Y=y)P(Y=yX=x)P(X=x)

情景:根据证据纠正信念

  • 先验:我们认为一个人感冒的概率为0.1
  • 似然:在此先验下,我们认为感冒的情况下,观测到咳嗽(证据)的概率为0.8
  • 后验:根据咳嗽可以修复我们对这个人感冒的认识,该人感冒的概率为0.9
先验:对X的原始信念

P ( X = x ) \begin{align}P(\mathbf{X}=\mathbf{x})\end{align} P(X=x)

似然:在先验概率下观察到证据的概率

P ( Y = y ∣ X = x ) \begin{align}P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})\end{align} P(Y=yX=x)

后验:对于X信念的修正

P ( X = x ∣ Y = y ) \begin{align}P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y})\end{align} P(X=xY=y)

全概率公式

含义:联合概率转换为边缘概率

  • 注意:X和Y都是向量
    P ( Y = y ) = ∑ x P ( Y = y , X = x ) \begin{align} P(\mathbf{Y}=\mathbf{y}) =\sum_{\mathbf{x}} P(\mathbf{Y}=\mathbf{y},\mathbf{X}=\mathbf{x}) \end{align} P(Y=y)=xP(Y=y,X=x)
  • 对多个变量进行积分:
    f Y ( y ) = ∫ f Y ∣ X ( y ∣ x ) f X ( x )   d x \begin{align} f_{\mathbf{Y}}(\mathbf{y}) =\int f_{\mathbf{Y}\mid \mathbf{X}}(\mathbf{y}\mid \mathbf{x})f_{\mathbf{X}}(\mathbf{x}) \,d\mathbf{x} \end{align} fY(y)=fYX(yx)fX(x)dx

概率分布

分布记号随机变量含义分布列 / 密度函数期望方差
0-1 分布 / 伯努利分布 b ( 1 , p ) b(1,p) b(1,p)一次试验是否成功 P ( X = k ) = p k ( 1 − p ) 1 − k ,   k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},\ k=0,1 P(X=k)=pk(1p)1k, k=0,1 p p p p ( 1 − p ) p(1-p) p(1p)
二项分布 b ( n , p ) b(n,p) b(n,p) n n n 次独立重复试验中成功的次数 P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P(X=k)=(kn)pk(1p)nk n p np np n p ( 1 − p ) np(1-p) np(1p)
泊松分布 P ( λ ) P(\lambda) P(λ)单位时间或单位区域内事件发生的次数 P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ λ \lambda λ λ \lambda λ
超几何分布 h ( n , N , M ) h(n,N,M) h(n,N,M)不放回抽样中某类物品被抽到的件数 P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kM)(nkNM) n M N n\frac{M}{N} nNM n M ( N − M ) ( N − n ) N 2 ( N − 1 ) \frac{nM(N-M)(N-n)}{N^2(N-1)} N2(N1)nM(NM)(Nn)
几何分布 G e ( p ) Ge(p) Ge(p)第一次成功出现时所需的试验次数 P ( X = k ) = ( 1 − p ) k − 1 p ,   k = 1 , 2 , ⋯ P(X=k)=(1-p)^{k-1}p,\ k=1,2,\cdots P(X=k)=(1p)k1p, k=1,2, 1 p \frac{1}{p} p1 1 − p p 2 \frac{1-p}{p^2} p21p
负二项分布 N b ( r , p ) Nb(r,p) Nb(r,p) r r r 次成功出现时所需的试验次数 P ( X = k ) = ( k − 1 r − 1 ) ( 1 − p ) k − r p r P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r P(X=k)=(r1k1)(1p)krpr r p \frac{r}{p} pr r ( 1 − p ) p 2 \frac{r(1-p)}{p^2} p2r(1p)
均匀分布 U ( a , b ) U(a,b) U(a,b)在区间 ( a , b ) (a,b) (a,b) 内等可能取值 f ( x ) = 1 b − a ,   a < x < b f(x)=\frac{1}{b-a},\ a<x<b f(x)=ba1, a<x<b a + b 2 \frac{a+b}{2} 2a+b ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(ba)2
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)大量随机因素共同作用下的连续变量 f ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x)=2π σ1exp{2σ2(xμ)2} μ \mu μ σ 2 \sigma^2 σ2
指数分布 E x p ( λ ) Exp(\lambda) Exp(λ)等待某事件第一次发生所需的时间 f ( x ) = λ e − λ x ,   x ≥ 0 f(x)=\lambda e^{-\lambda x},\ x\ge 0 f(x)=λeλx, x0 1 λ \frac{1}{\lambda} λ1 1 λ 2 \frac{1}{\lambda^2} λ21

正态分布

归一化
  • 将区域的概率分布情况转换为标准正态概率分布来计算
  • Φ标识标准正态分布的累计概率,可以查表得到。
    P ( a < X < b ) = P ( a − μ / σ < Z < b − μ / σ ) = Φ ( b − μ / σ ) − Φ ( a − μ / σ ) \begin{align} P(a<X<b)=&P(a-\mu/\sigma<Z<b-\mu/\sigma)\\ =&Φ(b-\mu/\sigma)-Φ(a-\mu/\sigma) \end{align} P(a<X<b)==P(aμ/σ<Z<bμ/σ)Φ(bμ/σ)Φ(aμ/σ)
Z α Z_{\alpha} Zα:右尾部分的面积为 α \alpha α的分位点
  • 用途计算标准正太

泊松分布的含义: X X X表示一段时间内事件发生的次数

P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ \begin{align}P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots\end{align} P(X=k)=k!λkeλ,k=0,1,2,

  • 随机变量X表示:1h内公交车到站次数1h事件发生次数
  • λ \lambda λ:1h公交车平均到站次数。
  • 假设平均到站次数为3个电话,那么1h内到站次数为5的概率为:
    P ( X = 5 ) = 3 5 5 ! e − 3 \begin{align}P(X=5)=\frac{3^5}{5!}e^{-3}\end{align} P(X=5)=5!35e3

指数分布的含义: X X X表示下一次事件的发生时间

X ∼ E x p ( λ ) \begin{align}X\sim Exp(\lambda)\end{align} XExp(λ)
P ( X > x ) = e − λ x \begin{align}P(X>x)=e^{-\lambda x}\end{align} P(X>x)=eλx
其中 x ≥ 0 x\geq0 x0,随机变量X表示:公交车到站的等待事件,排队的等待时间

  • 假设排队的平均等待时间为 1 / λ 1/\lambda 1/λ,那么等待时间不超过15的概率为:
    P ( X < = x ) = 1 − λ e − λ x \begin{align}P(X<=x)=1-\lambda e^{-\lambda x}\end{align} P(X<=x)=1λeλx

随机变量和随机向量

x = [ x 1 x 2 ⋮ x n ] ∈ R n \begin{align} x= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} \in \mathbb{R}^n \end{align} x= x1x2xn Rn

随机变量 / 向量的期望

E [ x ] = [ E [ x 1 ] E [ x 2 ] ⋮ E [ x n ] ] \begin{align} \mathbb{E}[x]= \begin{bmatrix} \mathbb{E}[x_1]\\ \mathbb{E}[x_2]\\ \vdots\\ \mathbb{E}[x_n] \end{bmatrix} \end{align} E[x]= E[x1]E[x2]E[xn]

随机变量的方差和协方差

概念公式维度含义
随机向量期望(\mathbb{E}[x])(n\times 1)随机向量的平均位置
自协方差矩阵(\mathrm{Cov}(x,x))(n\times n)描述 (x) 内部分量之间的波动和相关关系
交叉协方差矩阵(\mathrm{Cov}(x,y))(m\times n)描述 (x) 的分量与 (y) 的分量之间的交叉关系
对角线元素(\mathrm{Cov}(x_i,x_i))标量第 (i) 个变量自己的方差
非对角线元素(\mathrm{Cov}(x_i,x_j))标量两个变量之间的协方差

V a r ( x ) = E [ ( x − E [ x ] ) 2 ] \begin{align} \mathrm{Var}(x)=\mathbb{E}\left[(x-\mathbb{E}[x])^2\right] \end{align} Var(x)=E[(xE[x])2]

随机向量的方差和协方差:随机向量之间不同分量组合的相关程度

  • 元素表示每一个随机变量之间的关联程度 / 波动程度
  • 注意:协方差矩阵为nxn的,所以是列向量乘以行向量
    C o v ( x , x ) = E [ ( x − E [ x ] ) ( x − E [ x ] ) T ] \begin{align} \mathrm{Cov}(x,x)= \mathbb{E}\left[(x-\mathbb{E}[x])(x-\mathbb{E}[x])^T\right] \end{align} Cov(x,x)=E[(xE[x])(xE[x])T]

C o v ( x , x ) = [ C o v ( x 1 , x 1 ) C o v ( x 1 , x 2 ) ⋯ C o v ( x 1 , x n ) C o v ( x 2 , x 1 ) C o v ( x 2 , x 2 ) ⋯ C o v ( x 2 , x n ) ⋮ ⋮ ⋱ ⋮ C o v ( x n , x 1 ) C o v ( x n , x 2 ) ⋯ C o v ( x n , x n ) ] \begin{align} \mathrm{Cov}(x,x) =\begin{bmatrix} \mathrm{Cov}(x_1,x_1) & \mathrm{Cov}(x_1,x_2) & \cdots & \mathrm{Cov}(x_1,x_n)\\ \mathrm{Cov}(x_2,x_1) & \mathrm{Cov}(x_2,x_2) & \cdots & \mathrm{Cov}(x_2,x_n)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(x_n,x_1) & \mathrm{Cov}(x_n,x_2) & \cdots & \mathrm{Cov}(x_n,x_n) \end{bmatrix} \end{align} Cov(x,x)= Cov(x1,x1)Cov(x2,x1)Cov(xn,x1)Cov(x1,x2)Cov(x2,x2)Cov(xn,x2)Cov(x1,xn)Cov(x2,xn)Cov(xn,xn)

不同随机向量的协方差矩阵:

C o v ( x , y ) = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] \begin{align} \mathrm{Cov}(x,y) =\mathbb{E}\left[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T\right] \end{align} Cov(x,y)=E[(xE[x])(yE[y])T]

协方差矩阵 Σ x \Sigma_x Σx:随机变量不同分量的波动程度和相关性

  • 不同分量:例如身高,体重的相关程度和波动。

Σ x = C o v ( x ) = C o v ( x , x ) \begin{align} \Sigma_x =\mathrm{Cov}(x)= \mathrm{Cov}(x,x) \end{align} Σx=Cov(x)=Cov(x,x)

期望和方差/协方差的性质:多个随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn线性组合

期望的线性组合性质:无条件

E [ A x + B y + c ] = A E [ x ] + B E [ y ] + c \begin{align} \mathbb{E}[Ax+By+c] =A\mathbb{E}[x]+B\mathbb{E}[y]+c \end{align} E[Ax+By+c]=AE[x]+BE[y]+c

协方差的线性组合性质:通用独立版本

设随机向量 (x_1,\dots,x_m) 与 (y_1,\dots,y_n) 二阶矩存在,(A_i,B_j) 是确定矩阵,(a,b) 是确定向量:

u = ∑ i = 1 m A i x i + a , v = ∑ j = 1 n B j y j + b \begin{align} u=\sum_{i=1}^{m}A_i x_i+a, \quad v=\sum_{j=1}^{n}B_j y_j+b \end{align} u=i=1mAixi+a,v=j=1nBjyj+b

则:

C o v ( u , v ) = ∑ i = 1 m ∑ j = 1 n A i C o v ( x i , y j ) B j T \begin{align} \mathrm{Cov}(u,v) =\sum_{i=1}^{m}\sum_{j=1}^{n} A_i\mathrm{Cov}(x_i,y_j)B_j^T \end{align} Cov(u,v)=i=1mj=1nAiCov(xi,yj)BjT

这就是协方差矩阵在线性组合下的通用公式

高斯分布的线性组合仍然是高斯分布
  • 给定n个不同参数的高斯分布 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn,其中 X i X_i Xi服从均值为 μ i \mu_i μi,方差为 σ i 2 \sigma_i^2 σi2的高斯分布。
  • 高斯分布的线性组合 a 1 X 1 + a 2 X 2 + ⋯ a n X n a_1X_1+a_2X_2+\cdots a_nX_n a1X1+a2X2+anXn仍然服从均值为 ∑ a i μ i \sum{a_i\mu_i} aiμi,方差为 ∑ a i 2 σ i 2 \sum{a_i^2\sigma_i^2} ai2σi2的高斯分布

独立与相关

  • X和Y相互独立的定义
    X ⊥  ⁣ ⁣ ⁣ ⊥ Y \begin{align} \mathbf{X} \perp\!\!\!\perp \mathbf{Y} \end{align} XY

标准定义

  • 与变量Y无关
    P ( X ∣ Y ) = P ( X ) \begin{align} P(X|Y)=P(X) \end{align} P(XY)=P(X)

推论

P ( X ) P ( Y ) = P ( X , Y ) \begin{align} P(X)P(Y)=P(X,Y) \end{align} P(X)P(Y)=P(X,Y)

独立vs相关:独立必不相关,线性相关不一定独立

数理统计

方向1:样本分布推断总体分布

样本与总体:共享参数,参数未知

总体和样本来自同一个分布,并共享同一组总体参数;只是这些总体参数未知,需要通过样本来估计

大数定律: X ˉ \bar{X} Xˉ的均值 / 估计未知均值 μ = X ˉ \mu=\bar{X} μ=Xˉ

大数定律回答的问题是:

样本平均值在样本量很大时,会不会接近总体均值?

设 (X_1,X_2,\dots,X_n) 是独立同分布随机变量,并且:

E ( X i ) = μ E(X_i)=\mu E(Xi)=μ

样本均值为:

X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1i=1nXi

大数定律说明:

X ˉ → μ \bar X \to \mu Xˉμ

重复试验次数足够多时,随机波动会被平均掉,样本平均值会稳定在总体均值附近。


中心极限定理:样本均值 X ˉ \bar{X} Xˉ的分布,均值和方差

中心极限定理回答的问题是:

样本均值的误差大致服从什么分布?

仍然设:

X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,,Xn

独立同分布,且:

E ( X i ) = μ , V a r ( X i ) = σ 2 E(X_i)=\mu,\quad Var(X_i)=\sigma^2 E(Xi)=μ,Var(Xi)=σ2

样本均值为:

X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1i=1nXi

中心极限定理说明,当 (n) 足够大时:

X ˉ − μ σ / n ≈ N ( 0 , 1 ) \frac{\bar X-\mu}{\sigma/\sqrt n}\approx N(0,1) σ/n XˉμN(0,1)

也就是说:

X ˉ ≈ N ( μ , σ 2 n ) \bar X\approx N\left(\mu,\frac{\sigma^2}{n}\right) XˉN(μ,nσ2)

通俗理解是:

不管原始数据本身是不是正态分布,只要样本量足够大,样本均值的分布通常会近似正态分布。

应用:置信区间

它说明:

X ˉ ≈ N ( μ , σ 2 n ) \bar X\approx N\left(\mu,\frac{\sigma^2}{n}\right) XˉN(μ,nσ2)

因此我们可以构造置信区间:

X ˉ ± z α / 2 σ n \bar X \pm z_{\alpha/2}\frac{\sigma}{\sqrt n} Xˉ±zα/2n σ

也可以进行假设检验。

也就是说,中心极限定理提供了统计推断的分布基础

参数估计:已知分布估计参数

最大对数似然估计MLE

  • 似然:未定参数下证据发生的概率。
  • 最大对数似然:找到使得事件发生概率最大的参数 θ \theta θ,使得出现证据的可能性最大,以符合证据的观察

矩估计方法

  • 原理:样本的k阶矩等于总体的k阶矩:
    E [ X k ] = ∑ i = 1 k X i k \begin{align} E[X^k]&=\sum_{i=1}^{k}X_i^k \end{align} E[Xk]=i=1kXik
    通过一阶矩和二阶矩可以很好估计总体分布的均值和方差
    例如一阶情况:
    E [ X ] = ∑ i = 1 k X i = μ \begin{align} E[X]&=\sum_{i=1}^{k}X_i=\mu \end{align} E[X]=i=1kXi=μ
    例如二阶情况:
    E [ X 2 ] = ∑ i = 1 k X i 2 V [ X ] = E [ X 2 ] − E [ X ] 2 \begin{align} E[X^2]&=\sum_{i=1}^{k}X_i^2 \\ V[X]&=E[X^2]-E[X]^2 \end{align} E[X2]V[X]=i=1kXi2=E[X2]E[X]2

评价指标

无偏性
  • 如果重复抽样很多次,所有估计值的平均等于真实参数
    E [ θ ^ ] = θ E[\hat{\theta}]=\theta E[θ^]=θ
有效性
  • 参数值的估计方差越小越好
    V [ θ 1 ^ ] < V [ θ 2 ^ ] V[\hat{\theta_1}]<V[\hat{\theta_2}] V[θ1^]<V[θ2^]
一致性
  • 对于参数量的估计,在采样数很多时,需要趋近真实值

假设检验

基本流程:两个假设+p值+显著性水平 α \alpha α

  • 原假设:通常表示“没有显著差异 / 没有显著变化 / 某个参数等于某个值”的假设
  • 备择假设:表示与原假设相反,通常是研究者希望获得证据支持的假设
  • p值的含义:在原假设成立的前提下,观察到当前样本结果或比当前结果更极端结果的概率。
  • 显著性水平:事先设定的拒绝原假设的错误风险,通常记为 α \alpha α,例如 0.05 0.05 0.05
例子
  • 假设我们想检验总体均值是否为10,则:
    H 0 : μ = 10 \begin{align} H_0:\mu =10 \end{align} H0:μ=10
    H 1 : μ ≠ 10 \begin{align} H_1:\mu\neq10 \end{align} H1:μ=10

  • 如果得出 p = 0.01 p=0.01 p=0.01,结论为:在原假设 H 0 : μ = 10 H_0:\mu=10 H0:μ=10成立的前提下,得到当前样本均值或比当前结果更极端结果的概率为 0.01 0.01 0.01

  • 我们事先设定的显著性水平 α \alpha α 0.05 0.05 0.05

  • 因为 p < α p<\alpha p<α,所以认为当前样本结果在原假设成立时较少发生,因此拒绝原假设。

代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
代码转载自:https://pan.quark.cn/s/46fd08fb879c 网管教程 从入门到精通软件篇 ★一。★详尽的xp修复控制台指令及其应用!!! 放入xp(2000)的光盘,安装时选择R,执行修复! Windows XP(涵盖 Windows 2000)的控制台指令是在系统遭遇某些意外状况时的一种极具效用的诊断、检测以及恢复系统功能的工具。笔者确实一直期望能够将这方面的指令进行归纳,此次由老范辛苦整理了这份极具价值的秘籍。 Bootcfg bootcfg 命令用于启动配置故障恢复(对大多数计算机而言,即 boot.ini 文件)。 带有特定参数的 bootcfg 命令仅在运用故障恢复控制台时方可使用。能够在命令行界面下运用带有不同参数的 bootcfg 命令。 用法: bootcfg /default 设定默认引导选项。 bootcfg /add 向引导清单中增添 Windows 安装。 bootcfg /rebuild 重复整个 Windows 安装流程并让用户选择需添加的项目。 注意:运用 bootcfg /rebuild 之前,应先借助 bootcfg /copy 命令备份 boot.ini 文件。 bootcfg /scan 探查用于 Windows 安装的全部磁盘并展示结果。 注意:这些结果被静态存储,并用于当前会话。若在当前会话期间磁盘配置发生变动,为获取更新的探查结果,必须先重启计算机,然后再次探查磁盘。 bootcfg /list 列示引导清单中已有的项目。 bootcfg /disableredirect 在启动引导程序中禁用重定向。 bootcfg /redirect [ PortBaudRrate] |[ useBio...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值