离散与连续概率分布对比：PMF、PDF、CDF在数据建模中的实际应用

原创于 2026-06-18 09:47:35 发布 · 83 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#概率论 #深度学习 #python #人工智能 #ai

AI 专栏收录该内容

195 篇文章

订阅专栏

前言

在前面的文章中，我们已经学习了：

随机变量
数学期望
方差
条件概率
贝叶斯思想

接下来，我们将进入概率论中一个非常重要的主题：

概率分布（Probability Distribution）

如果说随机变量是在描述：

随机结果是什么

那么概率分布描述的则是：

各种结果出现的可能性有多大

例如：

用户是否点击广告
股票未来收益率
房屋价格预测
图像分类结果
大模型下一个Token预测

这些问题本质上都需要概率分布进行建模。

而概率分布主要分为两大类：

离散概率分布
连续概率分布

对应着三个极其重要的概念：

PMF（概率质量函数）

PDF（概率密度函数）

CDF（累积分布函数）

很多初学者经常混淆：

PMF和PDF有什么区别？
为什么连续变量概率为0？
CDF到底有什么用？
机器学习为什么离不开这些概念？

本文将系统讲解：

离散与连续概率分布
PMF原理
PDF原理
CDF原理
三者之间的关系
在机器学习中的实际应用

帮助大家真正理解：

概率分布是数据建模的基础语言

一、什么是概率分布

从随机变量开始

假设：

X = 骰子点数

可能结果：

每个结果概率：

结果	概率
1	1/6
2	1/6
3	1/6
4	1/6
5	1/6
6	1/6

这张表实际上描述了：

随机变量X的概率分布

概率分布的本质

概率分布回答：

随机变量会以什么概率取什么值

例如：

P(X=1)
P(X=2)
P(X=3)

因此：

概率分布
=
随机变量的行为说明书

二、离散概率分布

什么是离散随机变量

当随机变量取值有限或可数时：

X ∈ {1,2,3,4,5,6}

称为：

离散随机变量

例如：

掷骰子

1~6

用户是否点击广告

点击
未点击

商品购买数量

0
1
2
3
...

这些都属于离散变量。

三、PMF：概率质量函数

PMF定义

PMF全称：

Probability Mass Function

中文：

概率质量函数

其定义为：

P(X=x)

表示：

随机变量取某个具体值的概率

骰子案例

例如：

P(X=3)=1/6

表示：

掷出3点的概率为1/6

PMF特点

对于离散变量：

每个点都有具体概率

例如：

结果	概率
1	0.2
2	0.3
3	0.5

概率总和：

0.2+0.3+0.5=1

满足：

所有概率之和等于1

四、连续概率分布

现实世界中很多变量无法枚举。

例如：

身高

170.01
170.011
170.0112
...

温度

25.11℃
25.112℃
25.1123℃

房价

100.123万
100.1234万

这些变量取值无限连续。

因此称为：

连续随机变量

五、为什么连续变量概率为0

很多人第一次学习时都会震惊：

连续变量取某个值概率=0

例如：

P(身高=170cm)=0

为什么？

因为：

170.0000001

170.0000002

170.0000003

无限多个值同时存在。

某一个具体点：

所占区间长度为0

因此：

概率也为0

六、PDF：概率密度函数

PDF定义

PDF全称：

Probability Density Function

中文：

概率密度函数

记作：

f(x)

注意：

PDF不是概率

而是：

概率密度

如何理解密度

可以把它理解为：

单位区间内概率的浓缩程度

例如：

学生身高分布：

170cm附近很多人

210cm附近很少人

因此：

170cm附近密度高
210cm附近密度低

七、连续变量如何计算概率

不能计算：

P(X=170)

而是计算：

P(169<X<171)

概率来源于：

曲线下面积

即：

面积越大

概率越大

八、CDF：累积分布函数

什么是CDF

CDF全称：

Cumulative Distribution Function

中文：

累积分布函数

定义：

F(x)=P(X≤x)

表示：

随机变量小于等于x的概率

举例

假设：

X=骰子点数

那么：

F(3)
=
P(X≤3)

即：

P(1)+P(2)+P(3)

结果：

3/6
=
0.5

九、PMF、PDF、CDF三者关系

离散情况

PMF：

描述每个点概率

CDF：

累加所有概率

即：

CDF = PMF累计求和

连续情况

PDF：

描述概率密度

CDF：

描述累计概率

即：

CDF = PDF积分

关系如下：

PMF
 ↓
CDF

PDF
 ↓
CDF

十、机器学习中的PMF应用

文本分类

垃圾邮件分类：

垃圾邮件
正常邮件

模型输出：

类别	概率
垃圾邮件	0.95
正常邮件	0.05

实际上：

这就是PMF

因为：

类别是离散变量

十一、机器学习中的PDF应用

房价预测

预测结果：

房价≈120万

实际上是不够的。

更合理的是：

房价服从某种概率分布

例如：

110~130万概率最高

这时：

PDF发挥作用

风险预测

银行预测：

用户未来损失金额

损失属于连续变量。

因此：

通常利用PDF建模

十二、机器学习中的CDF应用

CDF在工业界非常常见。

风险控制

例如：

用户违约损失

问题：

损失超过10万元概率是多少？

利用CDF：

P(X>100000)

即可快速计算。

异常检测

系统监控：

服务器CPU使用率

如果：

P(CPU>95%)

非常小。

则说明：

出现异常

十三、深度学习中的概率分布

很多人认为：

深度学习不需要概率论

实际上完全错误。

Softmax输出

分类网络最后一层：

Softmax

输出：

类别	概率
猫	0.8
狗	0.15
鸟	0.05

本质上：

形成离散概率分布

即：

PMF

十四、大语言模型中的概率分布

GPT预测：

中国的首都是

模型输出：

Token	概率
北京	0.98
上海	0.01
广州	0.01

这实际上也是：

离散概率分布

每一步都在计算：

PMF

然后选择：

概率最大的Token

十五、从概率分布到人工智能

概率分布的发展路径：

随机变量
↓
PMF
↓
PDF
↓
CDF
↓
统计推断
↓
机器学习
↓
深度学习
↓
大语言模型

可以说：

概率分布
是整个人工智能的数学基石

总结

概率分布是概率论中最核心的概念之一，它决定了随机变量可能出现的结果及其对应概率。

本文系统讲解了：

1、什么是概率分布
2、离散概率分布
3、连续概率分布
4、PMF概率质量函数
5、PDF概率密度函数
6、CDF累积分布函数
7、三者之间的关系
8、机器学习中的应用
9、深度学习中的应用
10、大语言模型中的应用

可以将三者概括为：

概念	作用
PMF	描述离散变量具体概率
PDF	描述连续变量概率密度
CDF	描述累计概率

最终：

PMF告诉我们“某个结果出现的概率是多少”，PDF告诉我们“概率集中在哪里”，CDF告诉我们“累计发生概率有多大”。无论是机器学习分类、金融风险预测，还是GPT预测下一个Token，它们背后都离不开PMF、PDF和CDF这些概率分布工具。

理解了PMF、PDF和CDF，你就真正掌握了概率统计与机器学习建模的核心语言。