离散与连续概率分布对比:PMF、PDF、CDF在数据建模中的实际应用

目录

前言

一、什么是概率分布

从随机变量开始

概率分布的本质

二、离散概率分布

什么是离散随机变量

掷骰子

用户是否点击广告

商品购买数量

三、PMF:概率质量函数

PMF定义

骰子案例

PMF特点

四、连续概率分布

身高

温度

房价

五、为什么连续变量概率为0

六、PDF:概率密度函数

PDF定义

如何理解密度

七、连续变量如何计算概率

八、CDF:累积分布函数

什么是CDF

举例

九、PMF、PDF、CDF三者关系

离散情况

连续情况

十、机器学习中的PMF应用

文本分类

十一、机器学习中的PDF应用

房价预测

风险预测

十二、机器学习中的CDF应用

风险控制

异常检测

十三、深度学习中的概率分布

Softmax输出

十四、大语言模型中的概率分布

十五、从概率分布到人工智能

总结


前言

在前面的文章中,我们已经学习了:

  • 随机变量

  • 数学期望

  • 方差

  • 条件概率

  • 贝叶斯思想

接下来,我们将进入概率论中一个非常重要的主题:

概率分布(Probability Distribution)

如果说随机变量是在描述:

随机结果是什么

那么概率分布描述的则是:

各种结果出现的可能性有多大

例如:

  • 用户是否点击广告

  • 股票未来收益率

  • 房屋价格预测

  • 图像分类结果

  • 大模型下一个Token预测

这些问题本质上都需要概率分布进行建模。

而概率分布主要分为两大类:

离散概率分布
连续概率分布

对应着三个极其重要的概念:

PMF(概率质量函数)

PDF(概率密度函数)

CDF(累积分布函数)

很多初学者经常混淆:

  • PMF和PDF有什么区别?

  • 为什么连续变量概率为0?

  • CDF到底有什么用?

  • 机器学习为什么离不开这些概念?

本文将系统讲解:

  • 离散与连续概率分布

  • PMF原理

  • PDF原理

  • CDF原理

  • 三者之间的关系

  • 在机器学习中的实际应用

帮助大家真正理解:

概率分布是数据建模的基础语言

一、什么是概率分布

从随机变量开始

假设:

X = 骰子点数

可能结果:

1
2
3
4
5
6

每个结果概率:

结果概率
11/6
21/6
31/6
41/6
51/6
61/6

这张表实际上描述了:

随机变量X的概率分布

概率分布的本质

概率分布回答:

随机变量会以什么概率取什么值

例如:

P(X=1)
P(X=2)
P(X=3)

因此:

概率分布
=
随机变量的行为说明书

二、离散概率分布

什么是离散随机变量

当随机变量取值有限或可数时:

X ∈ {1,2,3,4,5,6}

称为:

离散随机变量

例如:

掷骰子

1~6

用户是否点击广告

点击
未点击

商品购买数量

0
1
2
3
...

这些都属于离散变量。


三、PMF:概率质量函数

PMF定义

PMF全称:

Probability Mass Function

中文:

概率质量函数

其定义为:

P(X=x)

表示:

随机变量取某个具体值的概率

骰子案例

例如:

P(X=3)=1/6

表示:

掷出3点的概率为1/6

PMF特点

对于离散变量:

每个点都有具体概率

例如:

结果概率
10.2
20.3
30.5

概率总和:

0.2+0.3+0.5=1

满足:

所有概率之和等于1

四、连续概率分布

现实世界中很多变量无法枚举。

例如:

身高

170.01
170.011
170.0112
...

温度

25.11℃
25.112℃
25.1123℃

房价

100.123万
100.1234万

这些变量取值无限连续。

因此称为:

连续随机变量

五、为什么连续变量概率为0

很多人第一次学习时都会震惊:

连续变量取某个值概率=0

例如:

P(身高=170cm)=0

为什么?

因为:

170.0000001

170.0000002

170.0000003

无限多个值同时存在。


某一个具体点:

所占区间长度为0

因此:

概率也为0

六、PDF:概率密度函数

PDF定义

PDF全称:

Probability Density Function

中文:

概率密度函数

记作:

f(x)

注意:

PDF不是概率

而是:

概率密度

如何理解密度

可以把它理解为:

单位区间内概率的浓缩程度

例如:

学生身高分布:

170cm附近很多人

210cm附近很少人

因此:

170cm附近密度高
210cm附近密度低

七、连续变量如何计算概率

不能计算:

P(X=170)

而是计算:

P(169<X<171)

概率来源于:

曲线下面积

即:

面积越大

概率越大

八、CDF:累积分布函数

什么是CDF

CDF全称:

Cumulative Distribution Function

中文:

累积分布函数

定义:

F(x)=P(X≤x)

表示:

随机变量小于等于x的概率

举例

假设:

X=骰子点数

那么:

F(3)
=
P(X≤3)

即:

P(1)+P(2)+P(3)

结果:

3/6
=
0.5

九、PMF、PDF、CDF三者关系

离散情况

PMF:

描述每个点概率

CDF:

累加所有概率

即:

CDF = PMF累计求和

连续情况

PDF:

描述概率密度

CDF:

描述累计概率

即:

CDF = PDF积分

关系如下:

PMF
 ↓
CDF

PDF
 ↓
CDF

十、机器学习中的PMF应用

文本分类

垃圾邮件分类:

垃圾邮件
正常邮件

模型输出:

类别概率
垃圾邮件0.95
正常邮件0.05

实际上:

这就是PMF

因为:

类别是离散变量

十一、机器学习中的PDF应用

房价预测

预测结果:

房价≈120万

实际上是不够的。


更合理的是:

房价服从某种概率分布

例如:

110~130万概率最高

这时:

PDF发挥作用

风险预测

银行预测:

用户未来损失金额

损失属于连续变量。

因此:

通常利用PDF建模

十二、机器学习中的CDF应用

CDF在工业界非常常见。


风险控制

例如:

用户违约损失

问题:

损失超过10万元概率是多少?

利用CDF:

P(X>100000)

即可快速计算。


异常检测

系统监控:

服务器CPU使用率

如果:

P(CPU>95%)

非常小。


则说明:

出现异常

十三、深度学习中的概率分布

很多人认为:

深度学习不需要概率论

实际上完全错误。


Softmax输出

分类网络最后一层:

Softmax

输出:

类别概率
0.8
0.15
0.05

本质上:

形成离散概率分布

即:

PMF

十四、大语言模型中的概率分布

GPT预测:

中国的首都是

模型输出:

Token概率
北京0.98
上海0.01
广州0.01

这实际上也是:

离散概率分布

每一步都在计算:

PMF

然后选择:

概率最大的Token

十五、从概率分布到人工智能

概率分布的发展路径:

随机变量
↓
PMF
↓
PDF
↓
CDF
↓
统计推断
↓
机器学习
↓
深度学习
↓
大语言模型

可以说:

概率分布
是整个人工智能的数学基石

总结

概率分布是概率论中最核心的概念之一,它决定了随机变量可能出现的结果及其对应概率。

本文系统讲解了:

1、什么是概率分布
2、离散概率分布
3、连续概率分布
4、PMF概率质量函数
5、PDF概率密度函数
6、CDF累积分布函数
7、三者之间的关系
8、机器学习中的应用
9、深度学习中的应用
10、大语言模型中的应用

可以将三者概括为:

概念作用
PMF描述离散变量具体概率
PDF描述连续变量概率密度
CDF描述累计概率

最终:

PMF告诉我们“某个结果出现的概率是多少”,PDF告诉我们“概率集中在哪里”,CDF告诉我们“累计发生概率有多大”。无论是机器学习分类、金融风险预测,还是GPT预测下一个Token,它们背后都离不开PMF、PDF和CDF这些概率分布工具。

理解了PMF、PDF和CDF,你就真正掌握了概率统计与机器学习建模的核心语言。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Calvad0s

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值