kaggle 数据竞赛:Titanic: Machine Learning from Disaster
https://www.kaggle.com/c/titanic
背景分析
沉没的泰坦尼克号是历史上最臭名昭著的沉船。1912年4月15日,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员1502人死亡。一个海难导致生命损失的原因是没有足够的救生艇的乘客和船员。除过有一些因素的影响,在沉船事故中,一些群体的人更可能生存其他群体更容易生还,比如妇女,儿童和上层阶级等。
问题概述
要求完成对具备什么特征的人可能生存的分析,使用机器学习算法来预测乘客是否能在悲剧中幸存下来。
数据处理
spass 基于临近点的线性趋势补全缺失数据:

本文介绍了一种使用朴素贝叶斯模型预测泰坦尼克号乘客生还情况的方法。通过分析数据,补全缺失值,并计算不同特征(如性别、年龄和票价)与生还概率的关系,然后在测试集上应用这些概率进行预测,以确定哪些乘客最有可能幸存。


被折叠的 条评论
为什么被折叠?



