BERT BERT

原创

已于 2025-04-24 23:47:06 修改 · 1.6k 阅读

标签

#人工智能 #深度学习 #机器学习

于 2025-04-24 23:46:15 首次发布

BERT

***** 2020年3月11日更新：更小的BERT模型 *****

这是在《深阅读的学生学得更好：预训练紧凑模型的重要性》（arXiv:1908.08962）中提到的24种较小规模的英文未分词BERT模型的发布。

我们已经证明，标准的BERT架构和训练目标在各种模型大小上都是有效的，不仅仅是BERT-Base和BERT-Large。这些小型BERT模型旨在用于计算资源有限的环境。它们可以像原始BERT模型一样进行微调。然而，在知识蒸馏的背景下，它们最有效，此时微调标签由更大、更准确的教师模型生成。

我们的目标是让资源较少的机构能够进行研究，并鼓励社区寻求不同于增加模型容量的创新方向。

所有24个模型可以从这里下载，或者从下面的表格中单独下载：

	H=128	H=256	H=512	H=768
L=2	2/128（BERT-Tiny）	2/256	2/512	2/768
L=4	4/128	4/256（BERT-Mini）	4/512（BERT-Small）	4/768
L=6	6/128	6/256	6/512	6/768
L=8	8/128	8/256	8/512（BERT-Medium）	8/768
L=10	10/128	10/256	10/512	10/768
L=12	12/128	12/256	12/512	12/768（BERT-Base）

注意，此次发布的BERT-Base模型只是为了完整性，它是在与原始模型相同的条件下重新训练的。

以下是GLUE测试集上的相应分数：

模型	得分	CoLA	SST-2	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI(v2)	RTE	WNLI	AX
BERT-Tiny	64.2	0.0	83.2	81.1/71.1	74.3/73.6	62.2/83.4	70.2	70.3	81.5	57.2	62.3	21.0
BERT-Mini	65.8	0.0	85.9	81.1/71.8	75.4/73.3	66.4/86.2	74.8	74.3	84.1	57.9	62.3	26.1
BERT-Small	71.2	27.8	89.7	83.4/76.2	78.8/77.0	68.1/87.0	77.6	77.0	86.4	61.8	62.3	28.6
BERT-Medium	73.5	38.0	89.6	86.6/81.6	80.4/78.4	69.6/87.9	80.0	79.1	87.7	62.2	62.3	30.5

对于每个任务，我们在以下列表中选择了最佳微调超参数，并进行了4个周期的训练：

批次大小：8, 16, 32, 64, 128
学习率：3e-4, 1e-4, 5e-5, 3e-5

如果您使用这些模型，请引用以下论文：

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}

***** 2019年5月31日新更新：整体单词掩码模型 *****

这是对预处理代码改进后产生的多个新模型的发布。

在原来的预处理代码中，我们随机选择WordPiece令牌进行掩码。例如：

输入文本：the man jumped up , put his basket on phil ##am ##mon ' s head
原掩码输入：[MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head

新的技术称为整体单词掩码。在这种情况下，我们总是同时掩码一个单词的所有对应令牌。整体掩码率保持不变。

整体单词掩码输入：the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head

训练仍然是相同的 - 我们仍然独立预测每个被掩码的WordPiece令牌。改进来自于原来的预测任务对于被拆分为多个WordPiece的单词来说太“容易”。

这可以通过在create_pretraining_data.py中传递标志--do_whole_word_mask=True来启用。

带有整体单词掩码的预训练模型链接如下。数据和训练否则完全相同，模型具有与原始模型相同的结构和词汇。我们只包含BERT-Large模型。当使用这些模型时，请在论文中明确说明您正在使用BERT-Large的整体单词掩码变体。

BERT-Large, 不区分大小写（整体单词掩码）： 24层，1024隐藏，16头，3.4亿参数
BERT-Large, 区分大小写（整体单词掩码）： 24层，1024隐藏，16头，3.4亿参数

模型名称	SQUAD 1.1 F1/EM	多任务NLI准确性
BERT-Large, 不区分大小写（原版）	91.0/84.3	86.05
BERT-Large, 不区分大小写（整体单词掩码）	92.8/86.7	87.07
BERT-Large, 区分大小写（原版）	91.5/