使用 Transformers 模型做文本多分类任务,搭建好模型后,模型分类效果很差,训练时loss不断波动,有下降,但又会再变大,通过如下提示,比较训练和测试时loss变化趋势,发现属于第四种情况,因此调整了学习率和batch_size,获得了较好的多分类效果。
-
train loss 不断下降,test loss不断下降,说明网络仍在学习;
-
train loss 不断下降,test loss趋于不变,说明网络过拟合;
-
train loss 趋于不变,test loss不断下降,说明数据集100%有问题;
-
train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;
-
train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集清洗等问题。
实例
数据
新闻类别有两类:娱乐和体育,共22w条数据,抽取10w条做训练测试;
![]()
原参数
学习率:0.001;batch_size:32;sen_max_len:128;epoch:5
原效果


修改参数
学习率:1e-6;batch_size:16;sen_max_len:128;epoch:10

文章讨论了使用Transformers模型进行文本多分类时遇到的训练loss波动和模型效果不佳的问题。作者通过分析训练和测试loss的变化趋势,识别出学习遇到瓶颈的情况,并通过调整学习率和batch_size改善了模型性能。最终,模型在新闻类别(娱乐和体育)的分类任务上得到了提升。

7427

被折叠的 条评论
为什么被折叠?



