hugging face 模型库的使用及加载 Bert 预训练模型

本文详细介绍了Huggingface模型库，包括BertConfig、BertModel和BertTokenizer的使用。BERT模型基于Transformer，利用双向Transformer编码器进行语义表示学习。文章解释了Transformer中的Attention机制，以及BERT的输入输出。最后，展示了如何从模型库导入和使用预训练的BERT模型，包括自动下载和本地导入的方法。

一、hugging face 模型库

Hugging face 是一个专注于 NLP 的公司，拥有一个开源的预训练模型库 Transformers ，里面囊括了非常多的模型例如 BERT、GPT、GPT2、ToBERTa、T5 等。

官网的模型库的地址如下：Hugging face 模型库官网

Hugging face 提供的 transformers 库主要用于预训练模型的载入，需要载入三个基本对象：

from transformers import BertConfig
from transformers import BertModel
from transformers import BertTokenizer

（1）BertConfig

是该库中模型配置的 class：控制模型的名称、最终输出的样式、隐藏层宽度和深度、激活函数的类别等。将Config类导出时文件格式为 json 格式。格式如下：
在这里插入图片描述

当然，也可以通过 config.json 来实例化 Config 类，这是一个互逆的过程。

（2）Model

也就是各种各样的模型：除了初始的 Bert、GPT 等基本模型，针对下游任务，还有其它的继承 BertPreTrainedModel 的派生类，对应不同的 Bert 任务，定义了 BertForQuestionAnswering、BertForNextSentencePrediction 以及 BertForSequenceClassification 等下游任务模型。模型导出时将生成 config.json 和 pytorch_model.bin 参数文件。前者就是 1 中的配置文件，这和我们的直觉相同，即 config 和 model 应该是紧密联系在一起的两个类。后者其实和 torch.save() 存储得到的文件是相同的，这是因为 Model 都直接或者间接继承了 Pytorch 的 Module 类。从这里可以看出，HuggingFace 在实现时很好地尊重了 Pytorch 的原生 API。

（3）Tokenizer

这是一个将纯文本转换为编码的过程。注意，Tokenizer 并不涉及将词转化为词向量的过程，仅仅是将纯文本分词，添加[MASK]标记、[SEP]、[CLS]标记，并转换为字典索引。Tokenizer 类导出时将分为三个文件，也就是：
在这里插入图片描述

利用分词器进行编码：
模型的所有分词器都是在 PreTrainedTokenizer 中实现的，分词的结果主要有以下内容：

{
input_ids: list[int],
token_type_ids: list[int] if return_token_type_ids is True (default)
attention_mask: list[int] if return_attention_mask is True (default)
overflowing_tokens: list[int] if a max_length is specified and return_overflowing_tokens is True
num_truncated_tokens: int if a max_length is specified and return_overflowing_tokens is True
special_tokens_mask: list[int] if add_special_tokens if set to True and return_special_tokens_mask is True
}

二、Bert 模型

BERT 模型的全称是：BidirectionalEncoder Representations from Transformer。从名字中可以看出，BERT 模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的 Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。煮个栗子，BERT模型训练文本语义表示的过程就好比我们在高中阶段学习语数英、物化生等各门基础学科，夯实基础知识；而模型在特定NLP任务中的参数微调就相当于我们在大学期间基于已有基础知识、针对所选专业作进一步强化，从而获得能够应用于实际场景的专业技能。

1、模型结构

BERT 模型是基于 Transformer 的Encoder，主要模型结构就是Transformer的堆叠。
当我们组建好Bert模型之后，只要把对应的token喂给BERT，每一层Transformer层吐出相应数量的hidden vector，一层层传递下去，直到最后输出。模型就这么简单，专治花里胡哨，这大概就是谷歌的暴力美学。
在这里插入图片描述
BERT模型的全称是：BidirectionalEncoder Representations from Transformer，也就是说，Transformer是组成BERT的核心模块，而Attention机制又是Transformer中最关键的部分

（1）Attention

Attention机制的中文名叫“注意力机制”，顾名思义，它的主要作用是让神经网络把“注意力”放在一部分输入上，即：区分输入的不同部分对输出的影响。这里，我们从增强字/词的语义表示这一角度来理解一下Attention机制。
我们知道，一个字/词在一篇文本中表达的意思通常与它的上下文有关。比如：光看“鹄”字，我们可能会觉得很陌生（甚至连读音是什么都不记得吧），而看到它的上下文“鸿鹄之志”后，就对它立马熟悉了起来。因此，字/词的上下文信息有助于增强其语义表示。同时，上下文中的不同字/词对增强语义表示所起的作用往往不同。比如在上面这个例子中，“鸿”字对理解“鹄”字的作用最大，而“之”字的作用则相对较小。为了有区分地利用上下文字信息增强目标字的语义表示，就可以用到Attention机制。
Attention机制主要涉及到三个概念：Query、Key和Value。在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。
在这里插入图片描述
1）Self-Attention：对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，因此，该Attention机制也叫Self-Attention。
在这里插入图片描述
2）Multi-head Self-Attention:为了增强Attention的多样性，文章作者进一