NLP（十）：ERNIE

最新推荐文章于 2026-05-24 16:18:49 发布

原创最新推荐文章于 2026-05-24 16:18:49 发布 · 1.7k 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

收录于

NLP

NLP基础

ERNIE是百度基于BERT改进的NLP模型，通过实体级别的Mask和多任务学习增强表现。ERNIE1.0使用了多种中文数据源，2.0则引入Reddit和搜索数据，采用连续多任务学习框架，包含词法、语言结构和语法级别的预训练任务，提升模型在自然语言处理任务上的性能。

1.ERNIE1.0

ERNIE（Enhanced Representation through Knowledge Integration）是百度基于BERT开发的NLP模型。ERNIE使用了更多的语料，除维基百科等数据集外，还使用了中文维基百科，百度百科，百度新闻，百度贴吧数据集。该模型的参数： L = 12，H = 768，A = 12 （BERT BASE）。

ERNIE实现了实体级别的Mask，实体级别的连续Mask改变了训练Task，而BERT是基于单字的Mask，其区别如下图所示：

在这里插入图片描述
ERNIE的实体级别的Mask包括单字、实体和短语等三个级别，实现字粒度的输入：

在这里插入图片描述
使用不同级别的Mask效果如下：

在这里插入图片描述
ERNIE还采用了Dialog embedding，输入层使用多轮对话修改NSP任务（random replace 构造负样本）

在这里插入图片描述

2.ERNIE2.0

2.1 整体框架

随后百度使用Reddit和搜索数据扩充了数据集，提出多任务持续学习训练框架并构建三种类型的无监督任务，但保持参数与BERT一致，建立ERNIE2.0。其整体框架如下：
在这里插入图片描述
1）连续多任务学习

不遗忘之前的训练结果；多任务高效的进行训练；使用上一任务的参数，并且新旧任务一起训练；将每个任务分成多次迭代，框架完成不同迭代的训练自动分配
在这里插入图片描述 2）多任务训练

Sentence level loss & word level loss；每个任务有独立的loss function， sentence task 可以和word task 一起训练

在这里插入图片描述

2.2 模型结构

ERNIE2.0基于三种类型的无监督任务进行训练，其模型结构如下：
在这里插入图片描述
1）词法级别预训练任务（MASK LM）

Knowledge Masking Task（ERNIE 1.0）：学习当前和全局依赖

Capitalization Prediction Task：大写用于专名识别等，小写也可用在其他任务

Token-Document Relation Prediction Task：token存在段落A中是否token会在文档的段落B中出现

2）语言结构级别预训练任务（NSP）

Sentence Reordering Task：文档中的句子打乱（分成1到m段，shuffle），识别正确顺序

Sentence Distance Task：句子间的距离，3分类任务
0 :相连的句子
1：同一文档中不相连的句子
2：两篇文档间的句子

3）语法级别预训练任务（NSP）

Discourse Relation Task：计算两句间的语义与修辞关系IR

Relevance Task：短文本信息检索关系（百度的核心）
Query-title （搜索数据）
0：搜索并点击（需求，服务业务场景）
1：搜索并展现（先验，相关性）
2：无关，随机替换（不想关）

2.3 连续多任务学习的效果

在这里插入图片描述
参考资料
[1]GLUE
[2]ERNIE 1.0
[3]ERNIE 2.0
[4]ERNIE源码

标签

#机器学习 #人工智能 #自然语言处理

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。