概率论与数理统计教程(三)-多维随机变量及其分布05：条件分布与条件期望

原创已于 2025-08-15 04:42:32 修改 · 1.2k 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#概率论

于 2024-02-10 23:20:55 首次发布

概率论与数理统计专栏收录该内容

46 篇文章

订阅专栏

本文详细介绍了条件分布和条件期望的概念，特别是在二维随机变量中的应用。通过离散和连续随机变量的例子，解释了如何计算条件分布和条件期望，并给出了全概率公式和贝叶斯公式。此外，还讨论了条件期望作为随机变量的特性以及在实际问题中的应用，如矿工逃离矿井的时间和工厂平均利润的计算。

§ 3.5 条件分布与条件期望

二维随机变量 $(X, Y)$ 之间主要表现为独立与相依两类关系。由于在许多问题中有关的随机变量取值往往是彼此有影响的，这就使得条件分布成为研究变量之间的相依关系的一个有力工具。

3.5.1 条件分布

对二维随机变量 $(X, Y)$ 而言，所谓随机变量 $X$ 的条件分布，就是在给定 $Y$ 取某个值的条件下 $X$ 的分布。例如，记 $X$ 为人的体重， $Y$ 为人的身高，则 $X$ 与 $Y$ 之间一般有相依关系。现在如果限定 $m)Y=1.7(\mathrm{~m})$ ，在这个条件下，体重 $X$ 的分布显然与 $X$ 的无条件分布（无此限制下体重的分布）会有很大的不同。本节将给出条件分布的定义，以便进一步在条件分布的基础上给出条件期望的概念。

一、离散随机变量的条件分布

设二维离散随机变量 $(X, Y)$ 的联合分布列为

$,j=1,2,⋯p_{ij}=P\left(X=x_{i}, Y=y_{j}\right), \quad i=1,2, \cdots, \quad j=1,2, \cdots$

仿照条件概率的定义，我们很容易地给出如下离散随机变量的条件分布列。

定义 3.5.1 对一切使 $P(Y=yj)=p⋅j=∑i=1∞pij>0P\left(Y=y_{j}\right)=p_{\cdot j}=\sum_{i=1}^{\infty} p_{ij}>0$ 的 $y_{j}$ ，称

$pi∣j=P(X=xi∣Y=yj)=P(X=xi,Y=yj)P(Y=yj)=pijp⋅j,i=1,2,⋯p_{i|j}=P\left(X=x_{i} \mid Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}=\frac{p_{ij}}{p_{\cdot j}}, \quad i=1,2, \cdots$

为给定 $Y=y_{j}$ 条件下 $X$ 的条件分布列。

同理，对一切使 $P(X=xi)=pi⋅=∑j=1∞pij>0P\left(X=x_{i}\right)=p_{i\cdot}=\sum_{j=1}^{\infty} p_{ij}>0$ 的 $x_{i}$ ，称

$pj∣i=P(Y=yj∣X=xi)=P(X=xi,Y=yj)P(X=xi)=pijpi⋅,j=1,2,⋯p_{j|i}=P\left(Y=y_{j} \mid X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}=\frac{p_{ij}}{p_{i\cdot}}, \quad j=1,2, \cdots$

为给定 $X=x_{i}$ 条件下 $Y$ 的条件分布列。

有了条件分布列，我们就可以给出离散随机变量的条件分布函数。

定义 3.5.2 给定 $Y=y_{j}$ 条件下 $X$ 的条件分布函数为

$F(x∣yj)=∑xi⩽xP(X=xi∣Y=yj)=∑xi⩽xpi∣jF\left(x \mid y_{j}\right)=\sum_{x_{i} \leqslant x} P\left(X=x_{i} \mid Y=y_{j}\right)=\sum_{x_{i} \leqslant x} p_{i|j}$

给定 $X=x_{i}$ 条件下 $Y$ 的条件分布函数为

$F(y∣xi)=∑yj⩽yP(Y=yj∣X=xi)=∑yj⩽ypj∣iF\left(y \mid x_{i}\right)=\sum_{y_{j} \leqslant y} P\left(Y=y_{j} \mid X=x_{i}\right)=\sum_{y_{j} \leqslant y} p_{j|i}$

例 3.5.1 设二维离散随机变量 $(X, Y)$ 的联合分布列为

$X\YX \backslash Y$	1	2	3	$pi⋅p_{i\cdot}$
1	0.1	0.3	0.2	0.6
2	0.2	0.05	0.15	0.4
$p⋅jp_{\cdot j}$	0.3	0.35	0.35	1.0

因为 $P(X=1)=p1⋅=0.6P(X=1)=p_{1\cdot}=0.6$ ，所以用第一行各元素分别除以 0.6，就可得给定 $X = 1$ 下， $Y$ 的条件分布列为

$\mid X=1$	1	2	3
$P$	$1/6$	$1/2$	$1/3$

用第二行各元素分别除以 0.4，就可得给定 $X = 2$ 下， $Y$ 的条件分布列为

$\mid X=2$	1	2	3
$P$	$1/2$	$1/8$	$3/8$

用第一列各元素分别除以 0.3，就可得给定 $Y = 1$ 下， $X$ 的条件分布列为

$\mid Y=1$	1	2
$P$	$1/3$	$2/3$

用第二列各元素分别除以 0.35，就可得给定 $Y = 2$ 下， $X$ 的条件分布列为

$\mid Y=2$	1	2
$P$	$6/7$	$1/7$

用第三列各元素分别除以 0.35，就可得给定 $Y = 3$ 下， $X$ 的条件分布列为

$\mid Y=3$	1	2
$P$	$4/7$	$3/7$

从这个例子看出，二维联合分布列只有一个，而条件分布列有 5 个。若 $X$ 与 $Y$ 的取值更多，则条件分布也更多。每个条件分布都从一个侧面描述了一种状态下的特定分布。可见条件分布的内容丰富，其应用也更广。

例 3.5.2 设随机变量 $X$ 与 $Y$ 相互独立，且 $\sim P\left(\lambda_{1}\right), Y \sim P\left(\lambda_{2}\right)$ 。在已知 $X + Y = n$ 的条件下，求 $X$ 的条件分布。

解因为独立泊松变量的和仍为泊松变量，即 $\sim P\left(\lambda_{1}+\lambda_{2}\right)$ ，所以

$,n\begin{aligned} P(X=k \mid X+Y=n) &= \frac{P(X=k, X+Y=n)}{P(X+Y=n)} \\ &= \frac{P(X=k) P(Y=n-k)}{P(X+Y=n)} \\ &= \frac{\frac{\lambda_{1}^{k}}{k !} \mathrm{e}^{-\lambda_{1}} \cdot \frac{\lambda_{2}^{n-k}}{(n-k) !} \mathrm{e}^{-\lambda_{2}}}{\frac{\left(\lambda_{1}+\lambda_{2}\right)^{n}}{n !} \mathrm{e}^{-\left(\lambda_{1}+\lambda_{2}\right)}} \\ &= \frac{n !}{k !(n-k) !} \frac{\lambda_{1}^{k} \lambda_{2}^{n-k}}{\left(\lambda_{1}+\lambda_{2}\right)^{n}} \\ &= \binom{n}{k}\left(\frac{\lambda_{1}}{\lambda_{1}+\lambda_{2}}\right)^{k}\left(\frac{\lambda_{2}}{\lambda_{1}+\lambda_{2}}\right)^{n-k}, \quad k=0,1, \cdots, n \end{aligned}$

即在 $X + Y = n$ 的条件下， $X$ 服从二项分布 $b (n, p)$ ，其中 $p=λ1/(λ1+λ2)p=\lambda_{1} /\left(\lambda_{1}+\lambda_{2}\right)$ 。

例 3.5.3 设在一段时间内进入某一商店的顾客人数 $X$ 服从泊松分布 $P(λ)P(\lambda)$ ，每个顾客购买某种物品的概率为 $p$ ，并且各个顾客是否购买该种物品相互独立，求进入商店的顾客购买这种物品的人数 $Y$ 的分布列。

解由题意知

$P(X=m)=λmm!e−λ,m=0,1,2,⋯P(X=m)=\frac{\lambda^{m}}{m !} \mathrm{e}^{-\lambda}, \quad m=0,1,2, \cdots$

在进入商店的人数 $X = m$ 的条件下，购买某种物品的人数 $Y$ 的条件分布为二项分布 $b (m, p)$ ，即

$\mid X=m)=\binom{m}{k} p^{k}(1-p)^{m-k}, \quad k=0,1,2, \cdots, m$

由全概率公式有

$P(Y=k)=∑m=k∞P(X=m)P(Y=k∣X=m)=∑m=k∞λmm!e−λ⋅m!k!(m−k)!pk(1−p)m−k=e−λ∑m=k∞λmk!(m−k)!pk(1−p)m−k=e−λ(λp)kk!∑m=k∞[(1−p)λ]m−k(m−k)!=(λp)kk!e−λeλ(1−p)=(λp)kk!e−λp,k=0,1,2,⋯\begin{aligned} P(Y=k) &= \sum_{m=k}^{\infty} P(X=m) P(Y=k \mid X=m) \\ &= \sum_{m=k}^{\infty} \frac{\lambda^{m}}{m !} \mathrm{e}^{-\lambda} \cdot \frac{m !}{k !(m-k) !} p^{k}(1-p)^{m-k} \\ &= \mathrm{e}^{-\lambda} \sum_{m=k}^{\infty} \frac{\lambda^{m}}{k !(m-k) !} p^{k}(1-p)^{m-k} \\ &= \mathrm{e}^{-\lambda} \frac{(\lambda p)^{k}}{k !} \sum_{m=k}^{\infty} \frac{[(1-p) \lambda]^{m-k}}{(m-k) !} \\ &= \frac{(\lambda p)^{k}}{k !} \mathrm{e}^{-\lambda} \mathrm{e}^{\lambda(1-p)} \\ &= \frac{(\lambda p)^{k}}{k !} \mathrm{e}^{-\lambda p}, \quad k=0,1,2, \cdots \end{aligned}$

即 $Y$ 服从参数为 $λp\lambda p$ 的泊松分布。

这个例子告诉我们：在直接寻求 $Y$ 的分布有困难时，有时借助条件分布可把困难克服。

二、连续随机变量的条件分布

设二维连续随机变量 $(X, Y)$ 的联合密度函数为 $p (x, y)$ ，边际密度函数为 $p_{X}(x), p_{Y}(y)$ 。

在离散随机变量场合，其条件分布函数为 $\leqslant x \mid Y=y)$ 。但是，因为连续随机变量取某个值的概率为零，即 $P (Y = y) = 0$ ，所以无法用条件概率直接计算 $\leqslant x \mid Y=y)$ 。一个很自然的想法是：将 $\leqslant x \mid Y=y)$ 看成是 $\rightarrow 0$ 时 $\leqslant x \mid y \leqslant Y \leqslant y+h)$ 的极限，即

$du∫yy+hpY(v)dv=lim⁡h→0∫−∞x{1h∫yy+hp(u,v)dv}du1h∫yy+hpY(v)dv\begin{aligned} P(X \leqslant x \mid Y=y) &= \lim_{h \rightarrow 0} P(X \leqslant x \mid y \leqslant Y \leqslant y+h) \\ &= \lim_{h \rightarrow 0} \frac{P(X \leqslant x, y \leqslant Y \leqslant y+h)}{P(y \leqslant Y \leqslant y+h)} \\ &= \lim_{h \rightarrow 0} \frac{\int_{-\infty}^{x} \int_{y}^{y+h} p(u, v) \mathrm{d} v \mathrm{~d} u}{\int_{y}^{y+h} p_{Y}(v) \mathrm{d} v} \\ &= \lim_{h \rightarrow 0} \frac{\int_{-\infty}^{x}\left\{\frac{1}{h} \int_{y}^{y+h} p(u, v) \mathrm{d} v\right\} \mathrm{d} u}{\frac{1}{h} \int_{y}^{y+h} p_{Y}(v) \mathrm{d} v} \end{aligned}$

当 $p_{Y}(y), p(x, y)$ 在 $y$ 处连续时，由积分中值定理可得

$lim⁡h→01h∫yy+hpY(v)dv=pY(y)lim⁡h→01h∫yy+hp(u,v)dv=p(u,y)\begin{aligned} \lim_{h \rightarrow 0} \frac{1}{h} \int_{y}^{y+h} p_{Y}(v) \mathrm{d} v &= p_{Y}(y) \\ \lim_{h \rightarrow 0} \frac{1}{h} \int_{y}^{y+h} p(u, v) \mathrm{d} v &= p(u, y) \end{aligned}$

所以

$\leqslant x \mid Y=y)=\int_{-\infty}^{x} \frac{p(u, y)}{p_{Y}(y)} \mathrm{d} u$

上式左端就是在 $Y = y$ 条件下 $X$ 的条件分布函数，可记为 $\mid y)$ 。再由密度函数定义知，上式右端的被积函数不是别的，正是在 $Y = y$ 条件下 $X$ 的条件密度函数，它可记为 $\mid y)$ 。至此，连续随机变量的条件分布函数与条件密度函数可定义如下。

定义 3.5.3 对一切使 $p_{Y}(y)>0$ 的 $y$ ，给定 $Y = y$ 条件下 $X$ 的条件分布函数和条件密度函数分别为

$F(x∣y)=∫−∞xp(u,y)pY(y)dup(x∣y)=p(x,y)pY(y)\begin{aligned} F(x \mid y) &= \int_{-\infty}^{x} \frac{p(u, y)}{p_{Y}(y)} \mathrm{d} u \\ p(x \mid y) &= \frac{p(x, y)}{p_{Y}(y)} \end{aligned}$

同理，对一切使 $p_{X}(x)>0$ 的 $x$ ，给定 $X = x$ 条件下 $Y$ 的条件分布函数和条件密度函数分别为

$F(y∣x)=∫−∞yp(x,v)pX(x)dvp(y∣x)=p(x,y)pX(x)\begin{aligned} F(y \mid x) &= \int_{-\infty}^{y} \frac{p(x, v)}{p_{X}(x)} \mathrm{d} v \\ p(y \mid x) &= \frac{p(x, y)}{p_{X}(x)} \end{aligned}$

要注意：无论条件分布函数 $\mid y)$ ，还是条件密度函数 $\mid y)$ ，它们还是条件 $Y = y$ 的函数，不同的条件（如 $Y=y_{1}$ 和 $Y=y_{2}$ ）下，其分布函数 $F(x∣y1)F\left(x \mid y_{1}\right)$ 和 $F(x∣y2)F\left(x \mid y_{2}\right)$ 是不同的，条件密度函数 $p(x∣y1)p\left(x \mid y_{1}\right)$ 和 $p(x∣y2)p\left(x \mid y_{2}\right)$ 也是不同的。由此可见，条件分布（密度）函数 $\mid y)(p(x \mid y))$ 表示一簇分布（密度）函数。对 $\mid x)$ 和 $\mid x)$ 也可作出类似的认识，这些都可以从下面例子中具体看出。

例 3.5.4 设 $(X, Y)$ 服从二维正态分布 $N(μ1,μ2,σ12,σ22,ρ)N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)$ ，由边际分布知 $X$ 服从正态分布 $N(μ1,σ12)N\left(\mu_{1}, \sigma_{1}^{2}\right)$ ， $Y$ 服从正态分布 $N(μ2,σ22)N\left(\mu_{2}, \sigma_{2}^{2}\right)$ 。现在来求条件分布。

根据 (3.5.6) 式得

$p(x∣y)=p(x,y)pY(y)=12πσ1σ21−ρ2exp⁡{−12(1−ρ2)[(x−μ1)2σ12−2ρ(x−μ1)(y−μ2)σ1σ2+(y−μ2)2σ22]}12πσ2exp⁡{−(y−μ2)22σ22}=12πσ11−ρ2exp⁡{−12σ12(1−ρ2)[x−(μ1+ρσ1σ2(y−μ2))]2}\begin{aligned} p(x \mid y) &= \frac{p(x, y)}{p_{Y}(y)} \\ &= \frac{\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\}}{\frac{1}{\sqrt{2 \pi} \sigma_{2}} \exp \left\{-\frac{\left(y-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right\}} \\ &= \frac{1}{\sqrt{2 \pi} \sigma_{1} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2 \sigma_{1}^{2}\left(1-\rho^{2}\right)}\left[x-\left(\mu_{1}+\rho \frac{\sigma_{1}}{\sigma_{2}}\left(y-\mu_{2}\right)\right)\right]^2\right\} \end{aligned}$

这正是正态密度函数，其均值 $μ3\mu_{3}$ 和方差 $σ32\sigma_{3}^{2}$ 分别为

$μ3=μ1+ρσ1σ2(y−μ2),σ32=σ12(1−ρ2)\mu_{3}=\mu_{1}+\rho \frac{\sigma_{1}}{\sigma_{2}}\left(y-\mu_{2}\right), \quad \sigma_{3}^{2}=\sigma_{1}^{2}\left(1-\rho^{2}\right)$

类似可得，在给定 $X = x$ 的条件下， $Y$ 的条件分布仍为正态分布 $N(μ4,σ42)N\left(\mu_{4}, \sigma_{4}^{2}\right)$ ，其均值和方差分别为

$μ4=μ2+ρσ2σ1(x−μ1),σ42=σ22(1−ρ2)\mu_{4}=\mu_{2}+\rho \frac{\sigma_{2}}{\sigma_{1}}\left(x-\mu_{1}\right), \quad \sigma_{4}^{2}=\sigma_{2}^{2}\left(1-\rho^{2}\right)$

由此也可以看出：二维正态分布的边际分布和条件分布都是一维正态分布，这是正态分布的一个重要性质。

例 3.5.5 设二维随机变量 $(X, Y)$ 服从 $G={(x,y)∣x2+y2⩽1}G=\left\{(x, y) \mid x^{2}+y^{2} \leqslant 1\right\}$ 上的均匀分布，试求给定 $Y = y$ 条件下 $X$ 的条件密度函数 $\mid y)$ 。

解因为

$y)=\begin{cases} \frac{1}{\pi}, & x^{2}+y^{2} \leqslant 1 \\ 0, & \text{其他} \end{cases}$

由此得 $Y$ 的边际密度函数为

$pY(y)={2π1−y2,−1⩽y⩽10,其他p_{Y}(y)=\begin{cases} \frac{2}{\pi} \sqrt{1-y^{2}}, & -1 \leqslant y \leqslant 1 \\ 0, & \text{其他} \end{cases}$

所以当 $- 1 < y < 1$ 时，有

$p(x∣y)=p(x,y)pY(y)={1/π(2/π)1−y2=121−y2,−1−y2⩽x⩽1−y20,其他\begin{aligned} p(x \mid y) &= \frac{p(x, y)}{p_{Y}(y)} \\ &= \begin{cases} \frac{1 / \pi}{(2 / \pi) \sqrt{1-y^{2}}}=\frac{1}{2 \sqrt{1-y^{2}}}, & -\sqrt{1-y^{2}} \leqslant x \leqslant \sqrt{1-y^{2}} \\ 0, & \text{其他} \end{cases} \end{aligned}$

将 $y = 0$ 和 $y = 0.5$ 分别代入上式可得（两个均匀分布）

$\mid y=0)=\begin{cases} \frac{1}{2}, & -1 \leqslant x \leqslant 1 \\ 0, & \text{其他} \end{cases}$

$\mid y=0.5)=\begin{cases} \frac{1}{\sqrt{3}}, & -\frac{\sqrt{3}}{2} \leqslant x \leqslant \frac{\sqrt{3}}{2} \\ 0, & \text{其他} \end{cases}$

进一步有：当 $- 1 < y < 1$ 时，给定 $Y = y$ 条件下， $X$ 服从 $(−1−y2,1−y2)\left(-\sqrt{1-y^{2}}, \sqrt{1-y^{2}}\right)$ 上的均匀分布。同理有：当 $- 1 < x < 1$ 时，给定 $X = x$ 条件下， $Y$ 服从 $(−1−x2,1−x2)\left(-\sqrt{1-x^{2}}, \sqrt{1-x^{2}}\right)$ 上的均匀分布。

三、连续场合的全概率公式和贝叶斯公式

有了条件分布密度函数的概念，我们可以给出连续随机变量场合的全概率公式和贝叶斯公式。将 (3.5.6) 式和 (3.5.8) 式改写为

$p(x,y)=pX(x)p(y∣x)p(x,y)=pY(y)p(x∣y)\begin{aligned} p(x, y) &= p_{X}(x) p(y \mid x) \\ p(x, y) &= p_{Y}(y) p(x \mid y) \end{aligned}$

再对 $p (x, y)$ 求边际密度函数，就得全概率公式的密度函数形式：

$pY(y)=∫−∞∞pX(x)p(y∣x)dxpX(x)=∫−∞∞pY(y)p(x∣y)dy\begin{aligned} p_{Y}(y) &= \int_{-\infty}^{\infty} p_{X}(x) p(y \mid x) \mathrm{d} x \\ p_{X}(x) &= \int_{-\infty}^{\infty} p_{Y}(y) p(x \mid y) \mathrm{d} y \end{aligned}$

将 (3.5.9) 式代入 (3.5.6) 式的分子，(3.5.11) 式代入 (3.5.6) 式的分母，就得贝叶斯公式的密度函数形式：

$\mid y)=\frac{p_{X}(x) p(y \mid x)}{\int_{-\infty}^{\infty} p_{X}(x) p(y \mid x) \mathrm{d} x}$

或

$\mid x)=\frac{p_{Y}(y) p(x \mid y)}{\int_{-\infty}^{\infty} p_{Y}(y) p(x \mid y) \mathrm{d} y}$

注意，虽然由边际分布无法得到联合分布，但 (3.5.9) 式和 (3.5.10) 式说明，由边际分布和条件分布就可以得到联合分布。

例 3.5.6 设随机变量 $\sim N\left(\mu, \sigma_{1}^{2}\right)$ ，在 $X = x$ 下 $Y$ 的条件分布为 $N(x,σ22)N\left(x, \sigma_{2}^{2}\right)$ 。试求 $Y$ 的（无条件）密度函数 $p_{Y}(y)$ 。

解由题意知

$pX(x)=12πσ1exp⁡{−(x−μ)22σ12}p(y∣x)=12πσ2exp⁡{−(y−x)22σ22}\begin{aligned} p_{X}(x) &= \frac{1}{\sqrt{2 \pi} \sigma_{1}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma_{1}^{2}}\right\} \\ p(y \mid x) &= \frac{1}{\sqrt{2 \pi} \sigma_{2}} \exp \left\{-\frac{(y-x)^{2}}{2 \sigma_{2}^{2}}\right\} \end{aligned}$

所以由 (3.5.11) 式得

$pY(y)=∫−∞∞pX(x)p(y∣x)dx=12πσ1σ2∫−∞∞exp⁡{−(x−μ)22σ12−(y−x)22σ22}dx=12πσ1σ2∫−∞∞exp⁡{−12[(1σ12+1σ22)x2−2(yσ22+μσ12)x+y2σ22+μ2σ12]}dx\begin{aligned} p_{Y}(y) &= \int_{-\infty}^{\infty} p_{X}(x) p(y \mid x) \mathrm{d} x \\ &= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma_{1}^{2}}-\frac{(y-x)^{2}}{2 \sigma_{2}^{2}}\right\} \mathrm{d} x \\ &= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left\{-\frac{1}{2}\left[\left(\frac{1}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}\right) x^{2}-2\left(\frac{y}{\sigma_{2}^{2}}+\frac{\mu}{\sigma_{1}^{2}}\right) x+\frac{y^{2}}{\sigma_{2}^{2}}+\frac{\mu^{2}}{\sigma_{1}^{2}}\right]\right\} \mathrm{d} x \end{aligned}$

记 $c=σ12σ22σ12+σ22c=\frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}$ ，则上式化成

$pY(y)=12πσ1σ2∫−∞∞exp⁡{−12c−1[x−c(μσ12+yσ22)]2−12(y−μ)2σ12+σ22}dx=12πσ1σ22πcexp⁡{−(y−μ)22(σ12+σ22)}=12πσ12+σ22exp⁡{−(y−μ)22(σ12+σ22)}\begin{aligned} p_{Y}(y) &= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \int_{-\infty}^{\infty} \exp \left\{-\frac{1}{2} c^{-1}\left[x-c\left(\frac{\mu}{\sigma_{1}^{2}}+\frac{y}{\sigma_{2}^{2}}\right)\right]^{2}-\frac{1}{2} \frac{(y-\mu)^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}\right\} \mathrm{d} x \\ &= \frac{1}{2 \pi \sigma_{1} \sigma_{2}} \sqrt{2 \pi c} \exp \left\{-\frac{(y-\mu)^{2}}{2\left(\sigma_{1}^{2}+\sigma_{2}^{2}\right)}\right\} \\ &= \frac{1}{\sqrt{2 \pi} \sqrt{\sigma_{1}^{2}+\sigma_{2}^{2}}} \exp \left\{-\frac{(y-\mu)^{2}}{2\left(\sigma_{1}^{2}+\sigma_{2}^{2}\right)}\right\} \end{aligned}$

这表明 $Y$ 仍服从正态分布 $N(μ,σ12+σ22)N\left(\mu, \sigma_{1}^{2}+\sigma_{2}^{2}\right)$ 。

3.5.2 条件数学期望

条件分布的数学期望称为条件数学期望，它的定义如下。

定义 3.5.4 条件分布的数学期望（若存在）称为条件期望，其定义如下：

$\mid Y=y)=\begin{cases} \sum_{i} x_{i} P\left(X=x_{i} \mid Y=y\right), & (X, Y) \text{为二维离散随机变量} \\ \int_{-\infty}^{\infty} x p(x \mid y) \mathrm{d} x, & (X, Y) \text{为二维连续随机变量} \end{cases}$

$\mid X=x)=\begin{cases} \sum_{j} y_{j} P\left(Y=y_{j} \mid X=x\right), & (X, Y) \text{为二维离散随机变量} \\ \int_{-\infty}^{\infty} y p(y \mid x) \mathrm{d} y, & (X, Y) \text{为二维连续随机变量} \end{cases}$

注意：条件期望 $\mid Y=y)$ 是 $y$ 的函数，它与无条件期望 $E (X)$ 的区别，不仅在于计算公式上，而且在于其含义上。譬如， $X$ 表示中国成年人的身高，则 $E (X)$ 表示中国成年人的平均身高。若用 $Y$ 表示中国成年人的足长（脚趾到脚跟的长度），则 $\mid Y=y)$ 表示足长为 $y$ 的中国成年人的平均身高，我国公安部门研究获得

$\mid Y=y)=6.876 y$

这个公式对公安部门破案起着重要的作用，例如，测得案犯留下的足印长为 $\mathrm{~cm}$ ，则由此公式可推算出此案犯身高约 $\mathrm{~cm}$ 。

其实以上公式的得出并不复杂，一般认为人的身高和足长 $(X, Y)$ 可以当作一个二维正态变量来处理，即 $(X, Y)$ 服从二维正态分布 $N(μ1,μ2,σ12,σ22,ρ)N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)$ 。由例 3.5.4 知，在给定 $Y = y$ 的条件下， $X$ 服从一维正态分布

$N(μ1+ρσ1σ2(y−μ2),σ12(1−ρ2))N\left(\mu_{1}+\rho \frac{\sigma_{1}}{\sigma_{2}}\left(y-\mu_{2}\right), \sigma_{1}^{2}\left(1-\rho^{2}\right)\right)$

由此得

$\mid Y=y)=\mu_{1}+\rho \frac{\sigma_{1}}{\sigma_{2}}\left(y-\mu_{2}\right)$

这是 $y$ 的线性函数。再用统计的方法（后面第六章的内容），从大量实际数据中得出 $μ1\mu_{1}$ ， $μ2\mu_{2}$ ， $σ1\sigma_{1}$ ， $σ2\sigma_{2}$ ， $ρ\rho$ 的估计后，就可得以上公式。

因为条件期望是条件分布的数学期望，所以它具有数学期望的一切性质，例如

$E(a1X1+a2X2∣Y=y)=a1E(X1∣Y=y)+a2E(X2∣Y=y)E\left(a_{1} X_{1}+a_{2} X_{2} \mid Y=y\right)=a_{1} E\left(X_{1} \mid Y=y\right)+a_{2} E\left(X_{2} \mid Y=y\right)$

其他性质在此不一一列举，读者可以自行写出。

我们特别要强调的是： $\mid Y=y)$ 是 $y$ 的函数，对 $y$ 的不同取值，条件期望 $\mid Y=y)$ 的取值也在变化。为此我们可以记

$\mid Y=y)$

进一步还可以将条件期望看成是随机变量 $Y$ 的函数，记为 $\mid Y)=g(Y)$ ，而将 $\mid Y=y)$ 看成是 $Y = y$ 时 $\mid Y)$ 的一个取值，由此看出： $\mid Y)$ 本身也是一个随机变量。

引进 $\mid Y)$ 不仅使我们前面所定义的 $\mid Y=y)$ 得到了统一的处理，而且可以得到更深刻的结果。

定理 3.5.1（重期望公式） 设 $(X, Y)$ 是二维随机变量，且 $E (X)$ 存在，则

$\mid Y))$

证明在此仅对连续场合进行证明，而离散场合可类似证明。设二维连续随机变量 $(X, Y)$ 的联合密度函数为 $p (x, y)$ 。记 $\mid Y=y)$ ，则 $\mid Y)$ 。由此利用 $\mid y) p_{Y}(y)$ ，可得

$dy=∫−∞∞{∫−∞∞xp(x∣y)dx}pY(y)dy\begin{aligned} E(X) &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) \mathrm{d} x \mathrm{~d} y \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x \mid y) p_{Y}(y) \mathrm{d} x \mathrm{~d} y \\ &= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty} x p(x \mid y) \mathrm{d} x\right\} p_{Y}(y) \mathrm{d} y \end{aligned}$

其中花括号中的积分不是别的，正是条件期望 $\mid Y=y)$ ，所以

$E(X)=∫−∞∞E(X∣Y=y)pY(y)dy=∫−∞∞g(y)pY(y)dy=E(g(Y))=E(E(X∣Y))\begin{aligned} E(X) &= \int_{-\infty}^{\infty} E(X \mid Y=y) p_{Y}(y) \mathrm{d} y \\ &= \int_{-\infty}^{\infty} g(y) p_{Y}(y) \mathrm{d} y \\ &= E(g(Y)) \\ &= E(E(X \mid Y)) \end{aligned}$

这就证明了 (3.5.17) 式。

重期望公式是概率论中较为深刻的一个结论，它在实际中很有用。譬如，要求在一个取值于很大范围上的指标 $X$ 的均值 $E (X)$ ，这时会遇到计算上的各种困难。为此，我们换一种思维方式，去找一个与 $X$ 有关的量 $Y$ ，用 $Y$ 的不同取值把大范围划分成若干个小区域，先在小区域上求 $X$ 的平均，再对此类平均求加权平均，即可得大范围上 $X$ 的平均 $E (X)$ 。如要求全校学生的平均身高，可先求出每个班级学生的平均身高，然后再对各班级的平均身高作加权平均，其权重就是班级人数在全校学生中所占的比例。

重期望公式的具体使用如下：

(1) 如果 $Y$ 是一个离散随机变量，则 (3.5.17) 式成为

$E(X)=∑jE(X∣Y=yj)P(Y=yj)E(X)=\sum_{j} E\left(X \mid Y=y_{j}\right) P\left(Y=y_{j}\right)$

(2) 如果 $Y$ 是一个连续随机变量，则 (3.5.17) 式成为

$E(X)=∫−∞∞E(X∣Y=y)pY(y)dyE(X)=\int_{-\infty}^{\infty} E(X \mid Y=y) p_{Y}(y) \mathrm{d} y$

例 3.5.7 一矿工被困在有三个门的矿井里。第一个门通一坑道，沿此坑道走 3 小时可到达安全区；第二个门通一坑道，沿此坑道走 5 小时又回到原处；第三个门通一坑道，沿此坑道走 7 小时也回到原处。假定此矿工总是等可能地在三个门中选择一个，试求他平均要用多少时间才能到达安全区。

解设该矿工需要 $X$ 小时到达安全区，则 $X$ 的可能取值为

$\cdots$

要写出 $X$ 的分布列是困难的，所以无法直接求 $E (X)$ 。为此记 $Y$ 表示第一次所选的门， ${Y=i\}$ 就是选择第 $i$ 个门。由题设知

$P(Y=1)=P(Y=2)=P(Y=3)=13P(Y=1)=P(Y=2)=P(Y=3)=\frac{1}{3}$

因为选第一个门后 3 小时可到达安全区，所以 $\mid Y=1)=3$ 。

又因为选第二个门后 5 小时回到原处，所以 $\mid Y=2)=5+E(X)$ 。

又因为选第三个门后 7 小时也回到原处，所以 $\mid Y=3)=7+E(X)$ 。

综上所述，由 (3.5.18) 式得

$E(X)=13[3+5+E(X)+7+E(X)]=5+23E(X)E(X)=\frac{1}{3}[3+5+E(X)+7+E(X)]=5+\frac{2}{3} E(X)$

解得 $E (X) = 15$ ，即该矿工平均要 15 小时才能到达安全区。

上例的解题方法带有某种普遍性，请读者从下例中再体会一下这种方法。

例 3.5.8 口袋中有编号为 $\cdots, n$ 的 $n$ 个球，从中任取 1 球。若取到 1 号球，则得 1 分，且停止摸球；若取到 $i$ 号球 $\geqslant 2)$ ，则得 $i$ 分，且将此球放回，重新摸球。如此下去，试求得到的平均总分数。

解记 $X$ 为得到的总分数， $Y$ 为第一次取到的球的号码。则

$P(Y=1)=P(Y=2)=⋯=P(Y=n)=1nP(Y=1)=P(Y=2)=\cdots=P(Y=n)=\frac{1}{n}$

又因为 $\mid Y=1)=1$ ，而当 $\geqslant 2$ 时， $\mid Y=i)=i+E(X)$ 。所以

$E(X)=∑i=1nE(X∣Y=i)P(Y=i)=1n[1+2+⋯+n+(n−1)E(X)]E(X)=\sum_{i=1}^{n} E(X \mid Y=i) P(Y=i)=\frac{1}{n}[1+2+\cdots+n+(n-1) E(X)]$

由此解得

$E(X)=n(n+1)2E(X)=\frac{n(n+1)}{2}$

例 3.5.9 设电力公司每月可以供应某工厂的电力 $X$ 服从 $(10, 30)$ （单位： $104kW10^{4} \mathrm{kW}$ ）上的均匀分布，而该工厂每月实际需要的电力 $Y$ 服从 $(10, 20)$ （单位： $104kW10^{4} \mathrm{kW}$ ）上的均匀分布。如果工厂能从电力公司得到足够的电力，则每 $104kW10^{4} \mathrm{kW}$ 电可以创造 30 万元的利润，若工厂从电力公司得不到足够的电力，则不足部分由工厂通过其他途径解决，由其他途径得到的电力每 $104kW10^{4} \mathrm{kW}$ 电只有 10 万元的利润。试求该厂每个月的平均利润。

解从题意知，每月供应电力 $\sim U(10,30)$ ，而工厂实际需要电力 $\sim U(10,20)$ 。若设工厂每个月的利润为 $Z$ 万元，则按题意可得

$Y>XZ=\begin{cases} 30 Y, & \text{当 } Y \leqslant X \\ 30 X+10(Y-X), & \text{当 } Y>X \end{cases}$

在 $X = x$ 给定时， $Z$ 仅是 $Y$ 的函数，于是当 $\leqslant x<20$ 时， $Z$ 的条件期望为

$dy=32(x2−100)+12(202−x2)+2x(20−x)=50+40x−x2\begin{aligned} E(Z \mid X=x) &= \int_{10}^{x} 30 y p_{Y}(y) \mathrm{d} y+\int_{x}^{20}(10 y+20 x) p_{Y}(y) \mathrm{d} y \\ &= \int_{10}^{x} 30 y \frac{1}{10} \mathrm{~d} y+\int_{x}^{20}(10 y+20 x) \frac{1}{10} \mathrm{~d} y \\ &= \frac{3}{2}\left(x^{2}-100\right)+\frac{1}{2}\left(20^{2}-x^{2}\right)+2 x(20-x) \\ &= 50+40 x-x^{2} \end{aligned}$

当 $\leqslant x \leqslant 30$ 时， $Z$ 的条件期望为

$\mid X=x)=\int_{10}^{20} 30 y p_{Y}(y) \mathrm{d} y=\int_{10}^{20} 30 y \frac{1}{10} \mathrm{~d} y=450$

然后用 $X$ 的分布对条件期望 $\mid X=x)$ 再作一次平均，即得

$dx=25+300−7006+225≈433\begin{aligned} E(Z) &= E(E(Z \mid X)) \\ &= \int_{10}^{20} E(Z \mid X=x) p_{X}(x) \mathrm{d} x+\int_{20}^{30} E(Z \mid X=x) p_{X}(x) \mathrm{d} x \\ &= \frac{1}{20} \int_{10}^{20}\left(50+40 x-x^{2}\right) \mathrm{d} x+\frac{1}{20} \int_{20}^{30} 450 \mathrm{~d} x \\ &= 25+300-\frac{700}{6}+225 \approx 433 \end{aligned}$

所以该厂每月的平均利润为 433 万元。

例 3.5.10（随机个随机变量和的数学期望） 设 $X1,X2,⋯X_{1}, X_{2}, \cdots$ 为一列独立同分布的随机变量，随机变量 $N$ 只取正整数值，且 $N$ 与 ${Xn}\left\{X_{n}\right\}$ 独立，证明

$E(∑i=1NXi)=E(X1)E(N)E\left(\sum_{i=1}^{N} X_{i}\right)=E\left(X_{1}\right) E(N)$

证明由定理 3.5.1 知

$E(∑i=1NXi)=E[E(∑i=1NXi∣N)]=∑n=1∞E(∑i=1NXi∣N=n)P(N=n)=∑n=1∞E(∑i=1nXi)P(N=n)=∑n=1∞nE(X1)P(N=n)=E(X1)∑n=1∞nP(N=n)=E(X1)E(N)\begin{aligned} E\left(\sum_{i=1}^{N} X_{i}\right) &= E\left[E\left(\sum_{i=1}^{N} X_{i} \mid N\right)\right] \\ &= \sum_{n=1}^{\infty} E\left(\sum_{i=1}^{N} X_{i} \mid N=n\right) P(N=n) \\ &= \sum_{n=1}^{\infty} E\left(\sum_{i=1}^{n} X_{i}\right) P(N=n) \\ &= \sum_{n=1}^{\infty} n E\left(X_{1}\right) P(N=n) \\ &= E\left(X_{1}\right) \sum_{n=1}^{\infty} n P(N=n) \\ &= E\left(X_{1}\right) E(N) \end{aligned}$

得证。

利用此题的结论，我们可以解很多实际问题，下面列举几个：

（1）设一天内到达某商场的顾客数 $N$ 是仅取非负整数值的随机变量，且 $E (N) = 35000$ 。又设进入此商场的第 $i$ 个顾客的购物金额为 $X_{i}$ ，可以认为诸 $X_{i}$ 是独立同分布的随机变量，且 $E(Xi)=82E\left(X_{i}\right)=82$ （元）。假设 $N$ 与 $X_{i}$ 相互独立是合理的，则此商场一天的平均营业额为