赛题理解
赛题类型
本赛题要求提交的结果是预测15 天内用券的概率,这是一个连续值,但是因为用券只有用与不用两种情况,而且评测指标是典型的二分类评测指标AUC,所以这是一个二分类问题。
解题思路

总结来说,解题流程是数据分析 -> 特征工程 -> 训练与验证 -> 模型融合。
数据探索

理论知识
数据可视化分布
1、箱线图:
箱线图(Box-Plot) 是用于显示一组数据分散情况的统计图,因其形状如箱子而得名。
箱线图的绘制过程:首先,找出一组数据的上下边缘、中位数及两个四分位数;然后,连接这两个四分位数,画出箱体;最后,将上下边缘分别与箱体连接,这样中位点就位于箱体中间。
箱线图可以观察数据分布的特征,也可以用于对多组数据分布特征进行比较。
2、直方图和Q-Q图:
直方图(Histogram)是用一系列高度不等的纵向条纹或线段来表示数据的分布情况,是一种统计报告图。一般横轴是数据类型,纵轴是统计特征(比如频数)。
Q-Q图( Quantile-Quantile Plot)以散点图的方式,通过绘制两个概率分布对应的分位数对不同分布进行比较。Q-Q图可以用于检验数据是

本文讲述了在一项O2O优惠券预测竞赛中,如何理解赛题类型,进行数据探索(包括箱线图、直方图和Q-Q图等)、特征工程(如用户行为、优惠券属性、统计特征等),以及如何通过滑窗方法和避免评估穿越来构建和验证模型,特别强调了穿越特征在比赛中的潜在影响。

5507

被折叠的 条评论
为什么被折叠?



