建模常见问题处理

原创

已于 2024-06-24 23:18:59 修改 · 2.3k 阅读

标签

#python #机器学习 #人工智能

于 2024-06-04 16:04:59 首次发布

一、数据质量问题

在数据建模过程中必须关注数据质量问题，例如数据缺失、数据异常、数据重复、数据覆盖率、数据时效性等。
解决这些问题的方法包括数据清洗、数据预处理、异常值检测、外部数据引入、剔除无效变量等等。
外部数据质量探索分析，包括数据分布、数据定义、数据尺度等与内部数据是否一致
一般接第三方数据，都会先启动数据测试，通过一定数量，且经过筛选的特定存量数据跟对方碰撞。测试对方数据的覆盖及缺失情况，这是基础的数据质量。接下来会测试对方数据对于风控的有效性，一般会通过一些常用指标看对自身客群的好坏区分度有多高。
模型设计需要的三大基础分析包括Vintage分析、逾期趋势分析、滚动率分析等，一般也在该阶段完

二、样本不平衡

样本数据不平衡是我们建模场景中经常遇到的问题，由于目标类别的分布占比差异较大，使得模型训练难以取得较好的拟合效果，甚至模型结果在实际应用中无效
解决方法：通过某种方法使得不同类别的样本对于模型学习中的Loss（或梯度）贡献是比较均衡的。以消除模型对不同类别的偏向性，学习到更为本质的特征

2.1 样本层面

2.1.1 欠采样、过采样

最直接的处理方式就是样本数量的调整了，常用的可以：

欠采样：减少多数类的数量（如随机欠采样、NearMiss、ENN）。
过采样：尽量多地增加少数类的的样本数量（如随机过采样、后续的数据增强方法），以达到类别间数目均衡。
还可结合两者做混合采样（如Smote+ENN）。

过采样后的数据由于反复出现了部分样本，模型会过度学习这些样本数据的信息，从而导致模型产生一定程度的过拟合；欠采样后的数据由于丢失部分样本数据，模型未能学习到所有样本的信息，使模型出现一定程度的欠拟合现象。此外，样本加权的方法虽然未变换样本数据量的多少，但给各类样本赋予合理的权重大小始终是一个难点，而在实际应用中一般是让各个目标分类间的加权损失值近似相等。

2.1.2 数据增强

数据增强（Data Augmentation）是在不实质性的增加数据的情况下，从原始数据加工出更多数据的表示，提高原数据的数量及质量，以接近于更多数据量产生的价值，从而提高模型的学习效果；

2.1.2.1基于样本变换的数据增强

单样本增强(主要用于图像)：主要有几何操作、颜色变换、随机擦除、添加噪声等方法产生新的样本，可参见imgaug开源库。

多样本增强：是通过组合及转换多个样本，主要有Smote类（可见imbalanced-learn.org/stable/references/over_sampling.html）、SamplePairing、Mixup等方法在特征空间内构造已知样本的邻域值样本。

基于深度学习的数据增强：生成模型如变分自编码网络(Variational Auto-Encoding network, VAE)和生成对抗网络(Generative Adversarial Network, GAN)，其生成样本的方法也可

最低0.47元/天解锁文章