BERT
***** 2020年3月11日更新:更小的BERT模型 *****
这是在《深阅读的学生学得更好:预训练紧凑模型的重要性》(arXiv:1908.08962)中提到的24种较小规模的英文未分词BERT模型的发布。
我们已经证明,标准的BERT架构和训练目标在各种模型大小上都是有效的,不仅仅是BERT-Base和BERT-Large。这些小型BERT模型旨在用于计算资源有限的环境。它们可以像原始BERT模型一样进行微调。然而,在知识蒸馏的背景下,它们最有效,此时微调标签由更大、更准确的教师模型生成。
我们的目标是让资源较少的机构能够进行研究,并鼓励社区寻求不同于增加模型容量的创新方向。
所有24个模型可以从这里下载,或者从下面的表格中单独下载:
| H=128 | H=256 | H=512 | H=768 | |
|---|---|---|---|---|
| L=2 | 2/128(BERT-Tiny) | 2/256 | 2/512 | 2/768 |
| L=4 | 4/128 | 4/256(BERT-Mini) | 4/512(BERT-Small) | 4/768 |
| L=6 | 6/128 | 6/256 | 6/512 | 6/768 |
| L=8 | 8/128 | 8/256 | 8/512(BERT-Medium) | 8/768 |
| L=10 | 10/128 | 10/256 | 10/512 | 10/768 |
| L=12 | 12/128 | 12/256 | 12/512 | 12/768(BERT-Base) |
注意,此次发布的BERT-Base模型只是为了完整性,它是在与原始模型相同的条件下重新训练的。
以下是GLUE测试集上的相应分数:
| 模型 | 得分 | CoLA | SST-2 | MRPC | STS-B | QQP | MNLI-m | MNLI-mm | QNLI(v2) | RTE | WNLI | AX |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BERT-Tiny | 64.2 | 0.0 | 83.2 | 81.1/71.1 | 74.3/73.6 | 62.2/83.4 | 70.2 | 70.3 | 81.5 | 57.2 | 62.3 | 21.0 |
| BERT-Mini | 65.8 | 0.0 | 85.9 | 81.1/71.8 | 75.4/73.3 | 66.4/86.2 | 74.8 | 74.3 | 84.1 | 57.9 | 62.3 | 26.1 |
| BERT-Small | 71.2 | 27.8 | 89.7 | 83.4/76.2 | 78.8/77.0 | 68.1/87.0 | 77.6 | 77.0 | 86.4 | 61.8 | 62.3 | 28.6 |
| BERT-Medium | 73.5 | 38.0 | 89.6 | 86.6/81.6 | 80.4/78.4 | 69.6/87.9 | 80.0 | 79.1 | 87.7 | 62.2 | 62.3 | 30.5 |
对于每个任务,我们在以下列表中选择了最佳微调超参数,并进行了4个周期的训练:
- 批次大小:8, 16, 32, 64, 128
- 学习率:3e-4, 1e-4, 5e-5, 3e-5
如果您使用这些模型,请引用以下论文:
@article{turc2019,
title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
journal={arXiv preprint arXiv:1908.08962v2 },
year={2019}
}
***** 2019年5月31日新更新:整体单词掩码模型 *****
这是对预处理代码改进后产生的多个新模型的发布。
在原来的预处理代码中,我们随机选择WordPiece令牌进行掩码。例如:
输入文本:the man jumped up , put his basket on phil ##am ##mon ' s head
原掩码输入:[MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head
新的技术称为整体单词掩码。在这种情况下,我们总是同时掩码一个单词的所有对应令牌。整体掩码率保持不变。
整体单词掩码输入:the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head
训练仍然是相同的 - 我们仍然独立预测每个被掩码的WordPiece令牌。改进来自于原来的预测任务对于被拆分为多个WordPiece的单词来说太“容易”。
这可以通过在create_pretraining_data.py中传递标志--do_whole_word_mask=True来启用。
带有整体单词掩码的预训练模型链接如下。数据和训练否则完全相同,模型具有与原始模型相同的结构和词汇。我们只包含BERT-Large模型。当使用这些模型时,请在论文中明确说明您正在使用BERT-Large的整体单词掩码变体。
-
BERT-Large, 不区分大小写(整体单词掩码): 24层,1024隐藏,16头,3.4亿参数
-
BERT-Large, 区分大小写(整体单词掩码): 24层,1024隐藏,16头,3.4亿参数
| 模型名称 | SQUAD 1.1 F1/EM | 多任务NLI准确性 |
|---|---|---|
| BERT-Large, 不区分大小写(原版) | 91.0/84.3 | 86.05 |
| BERT-Large, 不区分大小写(整体单词掩码) | 92.8/86.7 | 87.07 |
| BERT-Large, 区分大小写(原版) | 91.5/ |


7万+

被折叠的 条评论
为什么被折叠?



