文章目录
概率论
随机变量 vs 变量
- 取值不确定的变量叫做随机变量
联合概率
- 推广到多个随机变量的情况。设有随机变量:
X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn
离散型随机变量:单点有效
如果 (X_1,X_2,\cdots,X_n) 都是离散型随机变量,那么它们的概率质量函数pmf为:
P
(
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
n
=
x
n
)
P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)
P(X1=x1,X2=x2,⋯,Xn=xn)
也可以简写为:
P ( x 1 , x 2 , ⋯ , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,⋯,xn)
连续型随机变量:区域面积有效
如果 (X_1,X_2,\cdots,X_n) 是连续型随机变量,通常讨论联合概率密度函数pdf:
f ( x 1 , x 2 , ⋯ , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,⋯,xn)
此时,某个区域 (D) 内的联合概率为:
P ( ( X 1 , ⋯ , X n ) ∈ D ) = ∫ D f ( x 1 , ⋯ , x n ) , d x 1 ⋯ d x n P((X_1,\cdots,X_n)\in D)=\int_D f(x_1,\cdots,x_n),dx_1\cdots dx_n P((X1,⋯,Xn)∈D)=∫Df(x1,⋯,xn),dx1⋯dxn
因此连续型情况下主要看“区间”或“区域”的概率。
边缘概率:忽略不感兴趣的变量
- 边缘概率表示:只关心其中一部分随机变量,忽略其它随机变量。
离散型随机变量
- 一般地,若有 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn,只保留前 k k k 个变量,则:
P
(
x
1
,
⋯
,
x
k
)
=
∑
x
k
+
1
⋯
∑
x
n
P
(
x
1
,
⋯
,
x
k
,
x
k
+
1
,
⋯
,
x
n
)
P(x_1,\cdots,x_k)=\sum_{x_{k+1}}\cdots\sum_{x_n}P(x_1,\cdots,x_k,x_{k+1},\cdots,x_n)
P(x1,⋯,xk)=xk+1∑⋯xn∑P(x1,⋯,xk,xk+1,⋯,xn)
这就是离散型变量的边缘化。
连续型随机变量
如果 (X,Y,Z) 是连续型随机变量,联合密度为:
f X , Y , Z ( x , y , z ) f_{X,Y,Z}(x,y,z) fX,Y,Z(x,y,z)
那么 (X) 的边缘密度为:
f X ( x ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d y , d z f_X(x)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dy,dz fX(x)=∫−∞+∞∫−∞+∞fX,Y,Z(x,y,z),dy,dz
如果只消去 (Z),保留 (X,Y),则:
f X , Y ( x , y ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d z f_{X,Y}(x,y)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dz fX,Y(x,y)=∫−∞+∞fX,Y,Z(x,y,z),dz
条件概率:在部分变量已知时,另一些变量的概率
- 条件概率表示:已知某些随机变量的取值后,另一些随机变量取某些值的概率。
离散型随机变量
更一般地,若把变量分成两组:
X = ( X 1 , ⋯ , X k ) , Y = ( Y 1 , ⋯ , Y m ) X=(X_1,\cdots,X_k),\quad Y=(Y_1,\cdots,Y_m) X=(X1,⋯,Xk),Y=(Y1,⋯,Ym)
则:
P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x\mid Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)} P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)
其中:
P ( Y = y ) = ∑ x P ( X = x , Y = y ) P(Y=y)=\sum_x P(X=x,Y=y) P(Y=y)=x∑P(X=x,Y=y)
连续型随机变量
连续型变量中,对应的是条件密度。
如果有联合密度:
f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y)
那么条件密度为:
f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)fX,Y(x,y)
其中:
f Y ( y ) = ∫ − ∞ + ∞ f X , Y ( x , y ) , d x f_Y(y)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y),dx fY(y)=∫−∞+∞fX,Y(x,y),dx
如果有三个连续变量 (X,Y,Z),则:
f X ∣ Y , Z ( x ∣ y , z ) = f X , Y , Z ( x , y , z ) f Y , Z ( y , z ) f_{X\mid Y,Z}(x\mid y,z)=\frac{f_{X,Y,Z}(x,y,z)}{f_{Y,Z}(y,z)} fX∣Y,Z(x∣y,z)=fY,Z(y,z)fX,Y,Z(x,y,z)
其中:
f Y , Z ( y , z ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d x f_{Y,Z}(y,z)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dx fY,Z(y,z)=∫−∞+∞fX,Y,Z(x,y,z),dx
条件概率公式:条件 = 联合 / 边缘
概率论的链式法则
一般地,对于 (n) 个随机变量,有链式法则:
P ( X 1 , ⋯ , X n ) = P ( X 1 ∣ X 2 , ⋯ , X n ) P ( X 2 ∣ X 3 , ⋯ , X n ) ⋯ P ( X n − 1 ∣ X n ) P ( X n ) P(X_1,\cdots,X_n)=P(X_1\mid X_2,\cdots,X_n)P(X_2\mid X_3,\cdots,X_n)\cdots P(X_{n-1}\mid X_n)P(X_n) P(X1,⋯,Xn)=P(X1∣X2,⋯,Xn)P(X2∣X3,⋯,Xn)⋯P(Xn−1∣Xn)P(Xn)
也常写成另一种顺序:
P ( X 1 , ⋯ , X n ) = P ( X 1 ) ∏ i = 2 n P ( X i ∣ X 1 , ⋯ , X i − 1 ) P(X_1,\cdots,X_n)=P(X_1)\prod_{i=2}^{n}P(X_i\mid X_1,\cdots,X_{i-1}) P(X1,⋯,Xn)=P(X1)i=2∏nP(Xi∣X1,⋯,Xi−1)
贝叶斯公式
含义1:条件-联合-边缘概率转换公式
P ( X ∣ Y ) = P ( X , Y ) P ( Y ) \begin{align}P(\mathbf{X}\mid\mathbf{Y})=\frac{P(\mathbf{X},\mathbf{Y})}{P(\mathbf{Y})}\end{align} P(X∣Y)=P(Y)P(X,Y)
含义2:先验和后验公式
P ( X = x ∣ Y = y ) = P ( Y = y ∣ X = x ) P ( X = x ) P ( Y = y ) \begin{align} P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y}) =\frac{ P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})P(\mathbf{X}=\mathbf{x}) }{ P(\mathbf{Y}=\mathbf{y}) } \end{align} P(X=x∣Y=y)=P(Y=y)P(Y=y∣X=x)P(X=x)
情景:根据证据纠正信念
- 先验:我们认为一个人感冒的概率为0.1
- 似然:在此先验下,我们认为感冒的情况下,观测到咳嗽(证据)的概率为0.8
- 后验:根据咳嗽可以修复我们对这个人感冒的认识,该人感冒的概率为0.9
先验:对X的原始信念
P ( X = x ) \begin{align}P(\mathbf{X}=\mathbf{x})\end{align} P(X=x)
似然:在先验概率下观察到证据的概率
P ( Y = y ∣ X = x ) \begin{align}P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})\end{align} P(Y=y∣X=x)
后验:对于X信念的修正
P ( X = x ∣ Y = y ) \begin{align}P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y})\end{align} P(X=x∣Y=y)
全概率公式
含义:联合概率转换为边缘概率
- 注意:X和Y都是向量
P ( Y = y ) = ∑ x P ( Y = y , X = x ) \begin{align} P(\mathbf{Y}=\mathbf{y}) =\sum_{\mathbf{x}} P(\mathbf{Y}=\mathbf{y},\mathbf{X}=\mathbf{x}) \end{align} P(Y=y)=x∑P(Y=y,X=x) - 对多个变量进行积分:
f Y ( y ) = ∫ f Y ∣ X ( y ∣ x ) f X ( x ) d x \begin{align} f_{\mathbf{Y}}(\mathbf{y}) =\int f_{\mathbf{Y}\mid \mathbf{X}}(\mathbf{y}\mid \mathbf{x})f_{\mathbf{X}}(\mathbf{x}) \,d\mathbf{x} \end{align} fY(y)=∫fY∣X(y∣x)fX(x)dx
概率分布
| 分布 | 记号 | 随机变量含义 | 分布列 / 密度函数 | 期望 | 方差 |
|---|---|---|---|---|---|
| 0-1 分布 / 伯努利分布 | b ( 1 , p ) b(1,p) b(1,p) | 一次试验是否成功 | P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},\ k=0,1 P(X=k)=pk(1−p)1−k, k=0,1 | p p p | p ( 1 − p ) p(1-p) p(1−p) |
| 二项分布 | b ( n , p ) b(n,p) b(n,p) | n n n 次独立重复试验中成功的次数 | P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
| 泊松分布 | P ( λ ) P(\lambda) P(λ) | 单位时间或单位区域内事件发生的次数 | P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ | λ \lambda λ | λ \lambda λ |
| 超几何分布 | h ( n , N , M ) h(n,N,M) h(n,N,M) | 不放回抽样中某类物品被抽到的件数 | P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kM)(n−kN−M) | n M N n\frac{M}{N} nNM | n M ( N − M ) ( N − n ) N 2 ( N − 1 ) \frac{nM(N-M)(N-n)}{N^2(N-1)} N2(N−1)nM(N−M)(N−n) |
| 几何分布 | G e ( p ) Ge(p) Ge(p) | 第一次成功出现时所需的试验次数 | P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ P(X=k)=(1-p)^{k-1}p,\ k=1,2,\cdots P(X=k)=(1−p)k−1p, k=1,2,⋯ | 1 p \frac{1}{p} p1 | 1 − p p 2 \frac{1-p}{p^2} p21−p |
| 负二项分布 | N b ( r , p ) Nb(r,p) Nb(r,p) | 第 r r r 次成功出现时所需的试验次数 | P ( X = k ) = ( k − 1 r − 1 ) ( 1 − p ) k − r p r P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r P(X=k)=(r−1k−1)(1−p)k−rpr | r p \frac{r}{p} pr | r ( 1 − p ) p 2 \frac{r(1-p)}{p^2} p2r(1−p) |
| 均匀分布 | U ( a , b ) U(a,b) U(a,b) | 在区间 ( a , b ) (a,b) (a,b) 内等可能取值 | f ( x ) = 1 b − a , a < x < b f(x)=\frac{1}{b-a},\ a<x<b f(x)=b−a1, a<x<b | a + b 2 \frac{a+b}{2} 2a+b | ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(b−a)2 |
| 正态分布 | N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | 大量随机因素共同作用下的连续变量 | f ( x ) = 1 2 π σ exp { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x)=2πσ1exp{−2σ2(x−μ)2} | μ \mu μ | σ 2 \sigma^2 σ2 |
| 指数分布 | E x p ( λ ) Exp(\lambda) Exp(λ) | 等待某事件第一次发生所需的时间 | f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},\ x\ge 0 f(x)=λe−λx, x≥0 | 1 λ \frac{1}{\lambda} λ1 | 1 λ 2 \frac{1}{\lambda^2} λ21 |
正态分布
归一化
- 将区域的概率分布情况转换为标准正态概率分布来计算
- Φ标识标准正态分布的累计概率,可以查表得到。
P ( a < X < b ) = P ( a − μ / σ < Z < b − μ / σ ) = Φ ( b − μ / σ ) − Φ ( a − μ / σ ) \begin{align} P(a<X<b)=&P(a-\mu/\sigma<Z<b-\mu/\sigma)\\ =&Φ(b-\mu/\sigma)-Φ(a-\mu/\sigma) \end{align} P(a<X<b)==P(a−μ/σ<Z<b−μ/σ)Φ(b−μ/σ)−Φ(a−μ/σ)
Z α Z_{\alpha} Zα:右尾部分的面积为 α \alpha α的分位点
- 用途计算标准正太
泊松分布的含义:
X
X
X表示一段时间内事件发生的次数
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ \begin{align}P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots\end{align} P(X=k)=k!λke−λ,k=0,1,2,⋯
- 随机变量X表示:1h内公交车到站次数,1h事件的发生次数
- λ \lambda λ:1h公交车平均到站次数。
- 假设平均到站次数为3个电话,那么1h内到站次数为5的概率为:
P ( X = 5 ) = 3 5 5 ! e − 3 \begin{align}P(X=5)=\frac{3^5}{5!}e^{-3}\end{align} P(X=5)=5!35e−3
指数分布的含义: X X X表示下一次事件的发生时间
X
∼
E
x
p
(
λ
)
\begin{align}X\sim Exp(\lambda)\end{align}
X∼Exp(λ)
P
(
X
>
x
)
=
e
−
λ
x
\begin{align}P(X>x)=e^{-\lambda x}\end{align}
P(X>x)=e−λx
其中
x
≥
0
x\geq0
x≥0,随机变量X表示:公交车到站的等待事件,排队的等待时间
- 假设排队的平均等待时间为
1
/
λ
1/\lambda
1/λ,那么等待时间不超过15的概率为:
P ( X < = x ) = 1 − λ e − λ x \begin{align}P(X<=x)=1-\lambda e^{-\lambda x}\end{align} P(X<=x)=1−λe−λx
随机变量和随机向量
x = [ x 1 x 2 ⋮ x n ] ∈ R n \begin{align} x= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} \in \mathbb{R}^n \end{align} x= x1x2⋮xn ∈Rn
随机变量 / 向量的期望
E [ x ] = [ E [ x 1 ] E [ x 2 ] ⋮ E [ x n ] ] \begin{align} \mathbb{E}[x]= \begin{bmatrix} \mathbb{E}[x_1]\\ \mathbb{E}[x_2]\\ \vdots\\ \mathbb{E}[x_n] \end{bmatrix} \end{align} E[x]= E[x1]E[x2]⋮E[xn]
随机变量的方差和协方差
| 概念 | 公式 | 维度 | 含义 |
|---|---|---|---|
| 随机向量期望 | (\mathbb{E}[x]) | (n\times 1) | 随机向量的平均位置 |
| 自协方差矩阵 | (\mathrm{Cov}(x,x)) | (n\times n) | 描述 (x) 内部分量之间的波动和相关关系 |
| 交叉协方差矩阵 | (\mathrm{Cov}(x,y)) | (m\times n) | 描述 (x) 的分量与 (y) 的分量之间的交叉关系 |
| 对角线元素 | (\mathrm{Cov}(x_i,x_i)) | 标量 | 第 (i) 个变量自己的方差 |
| 非对角线元素 | (\mathrm{Cov}(x_i,x_j)) | 标量 | 两个变量之间的协方差 |
V a r ( x ) = E [ ( x − E [ x ] ) 2 ] \begin{align} \mathrm{Var}(x)=\mathbb{E}\left[(x-\mathbb{E}[x])^2\right] \end{align} Var(x)=E[(x−E[x])2]
随机向量的方差和协方差:随机向量之间不同分量组合的相关程度
- 元素表示每一个随机变量之间的关联程度 / 波动程度:
- 注意:协方差矩阵为nxn的,所以是列向量乘以行向量
C o v ( x , x ) = E [ ( x − E [ x ] ) ( x − E [ x ] ) T ] \begin{align} \mathrm{Cov}(x,x)= \mathbb{E}\left[(x-\mathbb{E}[x])(x-\mathbb{E}[x])^T\right] \end{align} Cov(x,x)=E[(x−E[x])(x−E[x])T]
C o v ( x , x ) = [ C o v ( x 1 , x 1 ) C o v ( x 1 , x 2 ) ⋯ C o v ( x 1 , x n ) C o v ( x 2 , x 1 ) C o v ( x 2 , x 2 ) ⋯ C o v ( x 2 , x n ) ⋮ ⋮ ⋱ ⋮ C o v ( x n , x 1 ) C o v ( x n , x 2 ) ⋯ C o v ( x n , x n ) ] \begin{align} \mathrm{Cov}(x,x) =\begin{bmatrix} \mathrm{Cov}(x_1,x_1) & \mathrm{Cov}(x_1,x_2) & \cdots & \mathrm{Cov}(x_1,x_n)\\ \mathrm{Cov}(x_2,x_1) & \mathrm{Cov}(x_2,x_2) & \cdots & \mathrm{Cov}(x_2,x_n)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(x_n,x_1) & \mathrm{Cov}(x_n,x_2) & \cdots & \mathrm{Cov}(x_n,x_n) \end{bmatrix} \end{align} Cov(x,x)= Cov(x1,x1)Cov(x2,x1)⋮Cov(xn,x1)Cov(x1,x2)Cov(x2,x2)⋮Cov(xn,x2)⋯⋯⋱⋯Cov(x1,xn)Cov(x2,xn)⋮Cov(xn,xn)
不同随机向量的协方差矩阵:
C o v ( x , y ) = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] \begin{align} \mathrm{Cov}(x,y) =\mathbb{E}\left[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T\right] \end{align} Cov(x,y)=E[(x−E[x])(y−E[y])T]
协方差矩阵
Σ
x
\Sigma_x
Σx:随机变量不同分量的波动程度和相关性
- 不同分量:例如身高,体重的相关程度和波动。
Σ x = C o v ( x ) = C o v ( x , x ) \begin{align} \Sigma_x =\mathrm{Cov}(x)= \mathrm{Cov}(x,x) \end{align} Σx=Cov(x)=Cov(x,x)
期望和方差/协方差的性质:多个随机变量
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn线性组合
期望的线性组合性质:无条件
E [ A x + B y + c ] = A E [ x ] + B E [ y ] + c \begin{align} \mathbb{E}[Ax+By+c] =A\mathbb{E}[x]+B\mathbb{E}[y]+c \end{align} E[Ax+By+c]=AE[x]+BE[y]+c
协方差的线性组合性质:通用和独立版本
设随机向量 (x_1,\dots,x_m) 与 (y_1,\dots,y_n) 二阶矩存在,(A_i,B_j) 是确定矩阵,(a,b) 是确定向量:
u = ∑ i = 1 m A i x i + a , v = ∑ j = 1 n B j y j + b \begin{align} u=\sum_{i=1}^{m}A_i x_i+a, \quad v=\sum_{j=1}^{n}B_j y_j+b \end{align} u=i=1∑mAixi+a,v=j=1∑nBjyj+b
则:
C o v ( u , v ) = ∑ i = 1 m ∑ j = 1 n A i C o v ( x i , y j ) B j T \begin{align} \mathrm{Cov}(u,v) =\sum_{i=1}^{m}\sum_{j=1}^{n} A_i\mathrm{Cov}(x_i,y_j)B_j^T \end{align} Cov(u,v)=i=1∑mj=1∑nAiCov(xi,yj)BjT
这就是协方差矩阵在线性组合下的通用公式。
高斯分布的线性组合仍然是高斯分布
- 给定n个不同参数的高斯分布: X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn,其中 X i X_i Xi服从均值为 μ i \mu_i μi,方差为 σ i 2 \sigma_i^2 σi2的高斯分布。
- 高斯分布的线性组合 a 1 X 1 + a 2 X 2 + ⋯ a n X n a_1X_1+a_2X_2+\cdots a_nX_n a1X1+a2X2+⋯anXn仍然服从均值为 ∑ a i μ i \sum{a_i\mu_i} ∑aiμi,方差为 ∑ a i 2 σ i 2 \sum{a_i^2\sigma_i^2} ∑ai2σi2的高斯分布。
独立与相关
- X和Y相互独立的定义
X ⊥ ⊥ Y \begin{align} \mathbf{X} \perp\!\!\!\perp \mathbf{Y} \end{align} X⊥⊥Y
标准定义
- 与变量Y无关
P ( X ∣ Y ) = P ( X ) \begin{align} P(X|Y)=P(X) \end{align} P(X∣Y)=P(X)
推论
P ( X ) P ( Y ) = P ( X , Y ) \begin{align} P(X)P(Y)=P(X,Y) \end{align} P(X)P(Y)=P(X,Y)
独立vs相关:独立必不相关,线性相关不一定独立
数理统计
方向1:样本分布推断总体分布
样本与总体:共享参数,参数未知
总体和样本来自同一个分布,并共享同一组总体参数;只是这些总体参数未知,需要通过样本来估计
大数定律: X ˉ \bar{X} Xˉ的均值 / 估计未知均值 μ = X ˉ \mu=\bar{X} μ=Xˉ
大数定律回答的问题是:
样本平均值在样本量很大时,会不会接近总体均值?
设 (X_1,X_2,\dots,X_n) 是独立同分布随机变量,并且:
E ( X i ) = μ E(X_i)=\mu E(Xi)=μ
样本均值为:
X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1i=1∑nXi
大数定律说明:
X ˉ → μ \bar X \to \mu Xˉ→μ
重复试验次数足够多时,随机波动会被平均掉,样本平均值会稳定在总体均值附近。
中心极限定理:样本均值 X ˉ \bar{X} Xˉ的分布,均值和方差
中心极限定理回答的问题是:
样本均值的误差大致服从什么分布?
仍然设:
X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn
独立同分布,且:
E ( X i ) = μ , V a r ( X i ) = σ 2 E(X_i)=\mu,\quad Var(X_i)=\sigma^2 E(Xi)=μ,Var(Xi)=σ2
样本均值为:
X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1i=1∑nXi
中心极限定理说明,当 (n) 足够大时:
X ˉ − μ σ / n ≈ N ( 0 , 1 ) \frac{\bar X-\mu}{\sigma/\sqrt n}\approx N(0,1) σ/nXˉ−μ≈N(0,1)
也就是说:
X ˉ ≈ N ( μ , σ 2 n ) \bar X\approx N\left(\mu,\frac{\sigma^2}{n}\right) Xˉ≈N(μ,nσ2)
通俗理解是:
不管原始数据本身是不是正态分布,只要样本量足够大,样本均值的分布通常会近似正态分布。
应用:置信区间
它说明:
X ˉ ≈ N ( μ , σ 2 n ) \bar X\approx N\left(\mu,\frac{\sigma^2}{n}\right) Xˉ≈N(μ,nσ2)
因此我们可以构造置信区间:
X ˉ ± z α / 2 σ n \bar X \pm z_{\alpha/2}\frac{\sigma}{\sqrt n} Xˉ±zα/2nσ
也可以进行假设检验。
也就是说,中心极限定理提供了统计推断的分布基础。
参数估计:已知分布估计参数
最大对数似然估计MLE
- 似然:未定参数下证据发生的概率。
- 最大对数似然:找到使得事件发生概率最大的参数 θ \theta θ,使得出现证据的可能性最大,以符合证据的观察。
矩估计方法
- 原理:样本的k阶矩等于总体的k阶矩:
E [ X k ] = ∑ i = 1 k X i k \begin{align} E[X^k]&=\sum_{i=1}^{k}X_i^k \end{align} E[Xk]=i=1∑kXik
通过一阶矩和二阶矩可以很好估计总体分布的均值和方差。
例如一阶情况:
E [ X ] = ∑ i = 1 k X i = μ \begin{align} E[X]&=\sum_{i=1}^{k}X_i=\mu \end{align} E[X]=i=1∑kXi=μ
例如二阶情况:
E [ X 2 ] = ∑ i = 1 k X i 2 V [ X ] = E [ X 2 ] − E [ X ] 2 \begin{align} E[X^2]&=\sum_{i=1}^{k}X_i^2 \\ V[X]&=E[X^2]-E[X]^2 \end{align} E[X2]V[X]=i=1∑kXi2=E[X2]−E[X]2
评价指标
无偏性
- 如果重复抽样很多次,所有估计值的平均等于真实参数
E [ θ ^ ] = θ E[\hat{\theta}]=\theta E[θ^]=θ
有效性
- 参数值的估计方差越小越好。
V [ θ 1 ^ ] < V [ θ 2 ^ ] V[\hat{\theta_1}]<V[\hat{\theta_2}] V[θ1^]<V[θ2^]
一致性
- 对于参数量的估计,在采样数很多时,需要趋近真实值。
假设检验
基本流程:两个假设+p值+显著性水平 α \alpha α
- 原假设:通常表示“没有显著差异 / 没有显著变化 / 某个参数等于某个值”的假设
- 备择假设:表示与原假设相反,通常是研究者希望获得证据支持的假设
- p值的含义:在原假设成立的前提下,观察到当前样本结果或比当前结果更极端结果的概率。
- 显著性水平:事先设定的拒绝原假设的错误风险,通常记为 α \alpha α,例如 0.05 0.05 0.05。
例子
-
假设我们想检验总体均值是否为10,则:
H 0 : μ = 10 \begin{align} H_0:\mu =10 \end{align} H0:μ=10
H 1 : μ ≠ 10 \begin{align} H_1:\mu\neq10 \end{align} H1:μ=10 -
如果得出 p = 0.01 p=0.01 p=0.01,结论为:在原假设 H 0 : μ = 10 H_0:\mu=10 H0:μ=10成立的前提下,得到当前样本均值或比当前结果更极端结果的概率为 0.01 0.01 0.01。
-
我们事先设定的显著性水平 α \alpha α为 0.05 0.05 0.05。
-
因为 p < α p<\alpha p<α,所以认为当前样本结果在原假设成立时较少发生,因此拒绝原假设。

948

被折叠的 条评论
为什么被折叠?



