数据科学中的相关性、悖论与机器学习应用
1. 相关性与因果关系
在数据分析中,我们常常会遇到变量之间的相关性,但需要明确的是,相关性并不意味着因果关系。例如,奶酪消费量和土木工程博士学位数量之间可能存在较强的相关性,但这很可能只是巧合,而不是奶酪消费决定了土木工程博士的数量。
“相关性并不意味着因果关系”,这一观点在数据科学中至关重要。仅仅因为变量之间存在数学上的相关性,并不能说明它们之间存在因果联系。可能存在混淆因素,或者它们之间根本没有任何关联。
2. 辛普森悖论
辛普森悖论是我们需要认真对待混淆变量的一个重要原因。该悖论指出,当考虑不同因素时,两个变量之间的相关性可能会完全反转。
以两个不同的着陆页A和B为例,在初步测试中,我们得到如下转化率结果:
| 页面 | 转化率 |
| ---- | ---- |
| 页面A | 75% (263/350) |
| 页面B | 83% (248/300) |
从这个结果看,页面B的转化率比页面A高近10%,似乎页面B是更好的选择。然而,当我们考虑用户更靠近美国的哪个海岸时,结果发生了变化:
| 页面 | 西海岸 | 东海岸 | 总体 |
| ---- | ---- | ---- | ---- |
| 页面A | 95% (76/80) | 72% (193/270) | 75% (263/350) |
| 页面B | 93% (231/250) | 34% (17/50) | 83% (248/300) |
可以看到,按地理位置细分样本后,页面A在两个类别中都表现更好,但
超级会员免费看
订阅专栏 解锁全文

107

被折叠的 条评论
为什么被折叠?



