机器学习数据处理、模型优化与评估全解析
1. 数据集划分
在机器学习中,为了评估模型的性能,通常需要将标记数据划分为不同的数据集。常见的划分方式有将数据分为训练集和验证集,有时还会增加测试集。
- 训练集 :用于模型的训练,让模型学习数据中的模式和规律。
- 验证集 :是标记数据的一小部分,在训练过程中不展示给模型。验证集上的良好表现是验证训练好的模型在面对新数据时能否表现良好的第一步。常见的训练集和验证集划分比例为 80%/20% 或 70%/30%。
- 测试集 :与验证集类似,也是标记训练数据的子集,用于运行模型并测量性能。不同之处在于使用方式,当在训练集上训练模型时,会使用不同的超参数进行多次迭代,最终选择在验证集上表现最佳的模型。但这样可能会导致模型对验证集有偏差,为了验证模型在未知数据上的性能,需要一个测试集。对于高置信度的模型验证,常见的划分比例是 60%/20%/20%(训练集/验证集/测试集)。
在进行数据集划分之前,打乱数据集非常重要。这样可以确保每个子集都是“真实世界”的代表性样本,并且每个标签的比例大致相等。例如,如果训练集中有 25% 的正例和 75% 的反例,那么测试集和验证集也应该具有相同的比例。
2. 交叉验证
交叉验证,也称为 k 折交叉验证,是另一种解决训练/测试划分问题的方法。其原理是将训练集划分为 k 个相等的子集(折),然后使用 k - 1 个折作为训练集,对第 k 个折进行验证。接着,重新开始训练,将之前用于训练的 k - 1 个集中的一个作为验证集,其余 k - 1 个
超级会员免费看
订阅专栏 解锁全文

2303

被折叠的 条评论
为什么被折叠?



