Transformers 模型微调方法

文章讨论了使用Transformers模型进行文本多分类时遇到的训练loss波动和模型效果不佳的问题。作者通过分析训练和测试loss的变化趋势,识别出学习遇到瓶颈的情况,并通过调整学习率和batch_size改善了模型性能。最终,模型在新闻类别(娱乐和体育)的分类任务上得到了提升。

        使用 Transformers 模型做文本多分类任务,搭建好模型后,模型分类效果很差,训练时loss不断波动,有下降,但又会再变大,通过如下提示,比较训练和测试时loss变化趋势,发现属于第四种情况,因此调整了学习率和batch_size,获得了较好的多分类效果。

  1. train loss 不断下降,test loss不断下降,说明网络仍在学习;

  2. train loss 不断下降,test loss趋于不变,说明网络过拟合;

  3. train loss 趋于不变,test loss不断下降,说明数据集100%有问题;

  4. train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;

  5. train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集清洗等问题。

实例

数据

新闻类别有两类:娱乐和体育,共22w条数据,抽取10w条做训练测试;

原参数

学习率:0.001;batch_size:32;sen_max_len:128;epoch:5

原效果

修改参数

学习率:1e-6;batch_size:16;sen_max_len:128;epoch:10

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值