数据分析笔试题
网易数据分析
1. 通常可以通过关联规则挖掘来发现啤酒和尿布的关系, 那么如果对于一条规则A →B, 如果同时购买A和B的顾客比例是4/7, 而购买A的顾客当中也购买了B的顾客比例是1/2, 而购买B的顾客当中也购买了A的顾客比例是1/3,则以下对于规则A →B的支持度(support)和置信度(confidence)分别是多少?
知识点
关联规则 支持度 置信度
笔记
关联规则:反映一个事物与其他事物之间的相互依存性和关联性
常用的频繁项集的评估标准有支持度,置信度和提升度
支持度:几个关联的数据在数据集中出现的次数占总数据集的比重,即项集出现的比例

置信度:一个数据出现后,另一个数据出现的概率,即条件概率

提升度:表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比

解答
本体中规则A →B的支持度是同时购买AB的比例,即4/7,置信度是购买A的人中购买B的比例,即1/2
2.设{xn}服从独立同分布, E[xn] = 0, Var[xn]=1, 则当n趋向于无穷大时,下式值为:

知识点 概率论
分析
独立同分布,相关系数为0,对式子取期望
E(X2)=E2(X)+Var(X)=1;
E(Xi, Xi+1)=0;
3.最小二乘估计是线性无偏估计中方差最小的
知识点 无偏估计 最小二乘
4.小明在一次班干部二人竞选中,支持率为百分之五十五,而置信水平0.95以上的置信区间为百分之五十到百分之六十,请问小明未当选的可能性有可能是
知识点 统计 假设检验
分析
置信水平0.95以上的置信区间为50%-60%,则区间[0%, 50%]⋃[60%,100%]的概率为5%。
仅当落在区间区间[0%, 50%]时,小明落选,则概率为
(50-0)((50-0)+(100-60) * 5% = 5/9 * 5% ≈ 2.78% ≈ 3%
双尾 双尾5% 单尾肯定小于5%
5.一个快递公司对同一年龄段的员工,进行汽车,三轮车,二轮车平均送件量的比较,结果给出sig.=0.034,说明
知识点 假设检验 统计
分析
p值表示接受原假设最小的显著性水平,p值越小,拒绝原假设的理由越充分

1万+

被折叠的 条评论
为什么被折叠?



