Transformers 模型微调方法

原创

已于 2026-02-05 15:31:37 修改 · 2k 阅读

·

1

·

标签

#深度学习

于 2023-03-20 18:31:07 首次发布

文章讨论了使用Transformers模型进行文本多分类时遇到的训练loss波动和模型效果不佳的问题。作者通过分析训练和测试loss的变化趋势，识别出学习遇到瓶颈的情况，并通过调整学习率和batch_size改善了模型性能。最终，模型在新闻类别（娱乐和体育）的分类任务上得到了提升。

使用 Transformers 模型做文本多分类任务，搭建好模型后，模型分类效果很差，训练时loss不断波动，有下降，但又会再变大，通过如下提示，比较训练和测试时loss变化趋势，发现属于第四种情况，因此调整了学习率和batch_size，获得了较好的多分类效果。

train loss 不断下降，test loss不断下降，说明网络仍在学习;
train loss 不断下降，test loss趋于不变，说明网络过拟合;
train loss 趋于不变，test loss不断下降，说明数据集100%有问题;
train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;
train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集清洗等问题。

实例

数据

新闻类别有两类：娱乐和体育，共22w条数据，抽取10w条做训练测试；

原参数

学习率：0.001；batch_size：32；sen_max_len：128；epoch：5

原效果

修改参数

学习率：1e-6；batch_size：16；sen_max_len：128；epoch：10

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。