建模常见问题处理

一、数据质量问题

在数据建模过程中必须关注数据质量问题,例如数据缺失、数据异常、数据重复、数据覆盖率、数据时效性等。
解决这些问题的方法包括数据清洗、数据预处理、异常值检测、外部数据引入、剔除无效变量等等。
外部数据质量探索分析,包括数据分布、数据定义、数据尺度等与内部数据是否一致
一般接第三方数据,都会先启动数据测试,通过一定数量,且经过筛选的特定存量数据跟对方碰撞。测试对方数据的覆盖及缺失情况,这是基础的数据质量。接下来会测试对方数据对于风控的有效性,一般会通过一些常用指标看对自身客群的好坏区分度有多高。
模型设计需要的三大基础分析包括Vintage分析、逾期趋势分析、滚动率分析等,一般也在该阶段完

二、样本不平衡

样本数据不平衡是我们建模场景中经常遇到的问题,由于目标类别的分布占比差异较大,使得模型训练难以取得较好的拟合效果,甚至模型结果在实际应用中无效
解决方法:通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。以消除模型对不同类别的偏向性,学习到更为本质的特征

2.1 样本层面

2.1.1 欠采样、过采样

最直接的处理方式就是样本数量的调整了,常用的可以:

  • 欠采样:减少多数类的数量(如随机欠采样、NearMiss、ENN)。
  • 过采样:尽量多地增加少数类的的样本数量(如随机过采样、后续的数据增强方法),以达到类别间数目均衡。
  • 还可结合两者做混合采样(如Smote+ENN)。

过采样后的数据由于反复出现了部分样本,模型会过度学习这些样本数据的信息,从而导致模型产生一定程度的过拟合;欠采样后的数据由于丢失部分样本数据,模型未能学习到所有样本的信息,使模型出现一定程度的欠拟合现象。此外,样本加权的方法虽然未变换样本数据量的多少,但给各类样本赋予合理的权重大小始终是一个难点,而在实际应用中一般是让各个目标分类间的加权损失值近似相等。

2.1.2 数据增强

数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多数据的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值,从而提高模型的学习效果;

2.1.2.1基于样本变换的数据增强
  • 单样本增强(主要用于图像):主要有几何操作、颜色变换、随机擦除、添加噪声等方法产生新的样本,可参见imgaug开源库。
  • 多样本增强:是通过组合及转换多个样本,主要有Smote类(可见imbalanced-learn.org/stable/references/over_sampling.html)、SamplePairing、Mixup等方法在特征空间内构造已知样本的邻域值样本。
  • 基于深度学习的数据增强:生成模型如变分自编码网络(Variational Auto-Encoding network, VAE)和生成对抗网络(Generative Adversarial Network, GAN),其生成样本的方法也可
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值