目录
前言
在前面的文章中,我们已经学习了:
-
随机变量
-
数学期望
-
方差
-
条件概率
-
贝叶斯思想
接下来,我们将进入概率论中一个非常重要的主题:
概率分布(Probability Distribution)
如果说随机变量是在描述:
随机结果是什么
那么概率分布描述的则是:
各种结果出现的可能性有多大
例如:
-
用户是否点击广告
-
股票未来收益率
-
房屋价格预测
-
图像分类结果
-
大模型下一个Token预测
这些问题本质上都需要概率分布进行建模。
而概率分布主要分为两大类:
离散概率分布
连续概率分布
对应着三个极其重要的概念:
PMF(概率质量函数)
PDF(概率密度函数)
CDF(累积分布函数)
很多初学者经常混淆:
-
PMF和PDF有什么区别?
-
为什么连续变量概率为0?
-
CDF到底有什么用?
-
机器学习为什么离不开这些概念?
本文将系统讲解:
-
离散与连续概率分布
-
PMF原理
-
PDF原理
-
CDF原理
-
三者之间的关系
-
在机器学习中的实际应用
帮助大家真正理解:
概率分布是数据建模的基础语言
一、什么是概率分布
从随机变量开始
假设:
X = 骰子点数
可能结果:
1
2
3
4
5
6
每个结果概率:
| 结果 | 概率 |
|---|---|
| 1 | 1/6 |
| 2 | 1/6 |
| 3 | 1/6 |
| 4 | 1/6 |
| 5 | 1/6 |
| 6 | 1/6 |
这张表实际上描述了:
随机变量X的概率分布
概率分布的本质
概率分布回答:
随机变量会以什么概率取什么值
例如:
P(X=1)
P(X=2)
P(X=3)
因此:
概率分布
=
随机变量的行为说明书
二、离散概率分布
什么是离散随机变量
当随机变量取值有限或可数时:
X ∈ {1,2,3,4,5,6}
称为:
离散随机变量
例如:
掷骰子
1~6
用户是否点击广告
点击
未点击
商品购买数量
0
1
2
3
...
这些都属于离散变量。
三、PMF:概率质量函数
PMF定义
PMF全称:
Probability Mass Function
中文:
概率质量函数
其定义为:
P(X=x)
表示:
随机变量取某个具体值的概率
骰子案例
例如:
P(X=3)=1/6
表示:
掷出3点的概率为1/6
PMF特点
对于离散变量:
每个点都有具体概率
例如:
| 结果 | 概率 |
|---|---|
| 1 | 0.2 |
| 2 | 0.3 |
| 3 | 0.5 |
概率总和:
0.2+0.3+0.5=1
满足:
所有概率之和等于1
四、连续概率分布
现实世界中很多变量无法枚举。
例如:
身高
170.01
170.011
170.0112
...
温度
25.11℃
25.112℃
25.1123℃
房价
100.123万
100.1234万
这些变量取值无限连续。
因此称为:
连续随机变量
五、为什么连续变量概率为0
很多人第一次学习时都会震惊:
连续变量取某个值概率=0
例如:
P(身高=170cm)=0
为什么?
因为:
170.0000001
170.0000002
170.0000003
无限多个值同时存在。
某一个具体点:
所占区间长度为0
因此:
概率也为0
六、PDF:概率密度函数
PDF定义
PDF全称:
Probability Density Function
中文:
概率密度函数
记作:
f(x)
注意:
PDF不是概率
而是:
概率密度
如何理解密度
可以把它理解为:
单位区间内概率的浓缩程度
例如:
学生身高分布:
170cm附近很多人
210cm附近很少人
因此:
170cm附近密度高
210cm附近密度低
七、连续变量如何计算概率
不能计算:
P(X=170)
而是计算:
P(169<X<171)
概率来源于:
曲线下面积
即:
面积越大
概率越大
八、CDF:累积分布函数
什么是CDF
CDF全称:
Cumulative Distribution Function
中文:
累积分布函数
定义:
F(x)=P(X≤x)
表示:
随机变量小于等于x的概率
举例
假设:
X=骰子点数
那么:
F(3)
=
P(X≤3)
即:
P(1)+P(2)+P(3)
结果:
3/6
=
0.5
九、PMF、PDF、CDF三者关系
离散情况
PMF:
描述每个点概率
CDF:
累加所有概率
即:
CDF = PMF累计求和
连续情况
PDF:
描述概率密度
CDF:
描述累计概率
即:
CDF = PDF积分
关系如下:
PMF
↓
CDF
PDF
↓
CDF
十、机器学习中的PMF应用
文本分类
垃圾邮件分类:
垃圾邮件
正常邮件
模型输出:
| 类别 | 概率 |
|---|---|
| 垃圾邮件 | 0.95 |
| 正常邮件 | 0.05 |
实际上:
这就是PMF
因为:
类别是离散变量
十一、机器学习中的PDF应用
房价预测
预测结果:
房价≈120万
实际上是不够的。
更合理的是:
房价服从某种概率分布
例如:
110~130万概率最高
这时:
PDF发挥作用
风险预测
银行预测:
用户未来损失金额
损失属于连续变量。
因此:
通常利用PDF建模
十二、机器学习中的CDF应用
CDF在工业界非常常见。
风险控制
例如:
用户违约损失
问题:
损失超过10万元概率是多少?
利用CDF:
P(X>100000)
即可快速计算。
异常检测
系统监控:
服务器CPU使用率
如果:
P(CPU>95%)
非常小。
则说明:
出现异常
十三、深度学习中的概率分布
很多人认为:
深度学习不需要概率论
实际上完全错误。
Softmax输出
分类网络最后一层:
Softmax
输出:
| 类别 | 概率 |
|---|---|
| 猫 | 0.8 |
| 狗 | 0.15 |
| 鸟 | 0.05 |
本质上:
形成离散概率分布
即:
PMF
十四、大语言模型中的概率分布
GPT预测:
中国的首都是
模型输出:
| Token | 概率 |
|---|---|
| 北京 | 0.98 |
| 上海 | 0.01 |
| 广州 | 0.01 |
这实际上也是:
离散概率分布
每一步都在计算:
PMF
然后选择:
概率最大的Token
十五、从概率分布到人工智能
概率分布的发展路径:
随机变量
↓
PMF
↓
PDF
↓
CDF
↓
统计推断
↓
机器学习
↓
深度学习
↓
大语言模型
可以说:
概率分布
是整个人工智能的数学基石
总结
概率分布是概率论中最核心的概念之一,它决定了随机变量可能出现的结果及其对应概率。
本文系统讲解了:
1、什么是概率分布
2、离散概率分布
3、连续概率分布
4、PMF概率质量函数
5、PDF概率密度函数
6、CDF累积分布函数
7、三者之间的关系
8、机器学习中的应用
9、深度学习中的应用
10、大语言模型中的应用
可以将三者概括为:
| 概念 | 作用 |
|---|---|
| PMF | 描述离散变量具体概率 |
| 描述连续变量概率密度 | |
| CDF | 描述累计概率 |
最终:
PMF告诉我们“某个结果出现的概率是多少”,PDF告诉我们“概率集中在哪里”,CDF告诉我们“累计发生概率有多大”。无论是机器学习分类、金融风险预测,还是GPT预测下一个Token,它们背后都离不开PMF、PDF和CDF这些概率分布工具。
理解了PMF、PDF和CDF,你就真正掌握了概率统计与机器学习建模的核心语言。

834

被折叠的 条评论
为什么被折叠?



