BERT BERT

BERT

***** 2020年3月11日更新:更小的BERT模型 *****

这是在《深阅读的学生学得更好:预训练紧凑模型的重要性》(arXiv:1908.08962)中提到的24种较小规模的英文未分词BERT模型的发布。

我们已经证明,标准的BERT架构和训练目标在各种模型大小上都是有效的,不仅仅是BERT-Base和BERT-Large。这些小型BERT模型旨在用于计算资源有限的环境。它们可以像原始BERT模型一样进行微调。然而,在知识蒸馏的背景下,它们最有效,此时微调标签由更大、更准确的教师模型生成。

我们的目标是让资源较少的机构能够进行研究,并鼓励社区寻求不同于增加模型容量的创新方向。

所有24个模型可以从这里下载,或者从下面的表格中单独下载:

H=128 H=256 H=512 H=768
L=2 2/128(BERT-Tiny) 2/256 2/512 2/768
L=4 4/128 4/256(BERT-Mini) 4/512(BERT-Small) 4/768
L=6 6/128 6/256 6/512 6/768
L=8 8/128 8/256 8/512(BERT-Medium) 8/768
L=10 10/128 10/256 10/512 10/768
L=12 12/128 12/256 12/512 12/768(BERT-Base)

注意,此次发布的BERT-Base模型只是为了完整性,它是在与原始模型相同的条件下重新训练的。

以下是GLUE测试集上的相应分数:

模型 得分 CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI(v2) RTE WNLI AX
BERT-Tiny 64.2 0.0 83.2 81.1/71.1 74.3/73.6 62.2/83.4 70.2 70.3 81.5 57.2 62.3 21.0
BERT-Mini 65.8 0.0 85.9 81.1/71.8 75.4/73.3 66.4/86.2 74.8 74.3 84.1 57.9 62.3 26.1
BERT-Small 71.2 27.8 89.7 83.4/76.2 78.8/77.0 68.1/87.0 77.6 77.0 86.4 61.8 62.3 28.6
BERT-Medium 73.5 38.0 89.6 86.6/81.6 80.4/78.4 69.6/87.9 80.0 79.1 87.7 62.2 62.3 30.5

对于每个任务,我们在以下列表中选择了最佳微调超参数,并进行了4个周期的训练:

  • 批次大小:8, 16, 32, 64, 128
  • 学习率:3e-4, 1e-4, 5e-5, 3e-5

如果您使用这些模型,请引用以下论文:

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}

***** 2019年5月31日新更新:整体单词掩码模型 *****

这是对预处理代码改进后产生的多个新模型的发布。

在原来的预处理代码中,我们随机选择WordPiece令牌进行掩码。例如:

输入文本:the man jumped up , put his basket on phil ##am ##mon ' s head
原掩码输入:[MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head

新的技术称为整体单词掩码。在这种情况下,我们总是同时掩码一个单词的所有对应令牌。整体掩码率保持不变。

整体单词掩码输入:the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head

训练仍然是相同的 - 我们仍然独立预测每个被掩码的WordPiece令牌。改进来自于原来的预测任务对于被拆分为多个WordPiece的单词来说太“容易”。

这可以通过在create_pretraining_data.py中传递标志--do_whole_word_mask=True来启用。

带有整体单词掩码的预训练模型链接如下。数据和训练否则完全相同,模型具有与原始模型相同的结构和词汇。我们只包含BERT-Large模型。当使用这些模型时,请在论文中明确说明您正在使用BERT-Large的整体单词掩码变体。

模型名称 SQUAD 1.1 F1/EM 多任务NLI准确性
BERT-Large, 不区分大小写(原版) 91.0/84.3 86.05
BERT-Large, 不区分大小写(整体单词掩码) 92.8/86.7 87.07
BERT-Large, 区分大小写(原版) 91.5/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

thesky123456

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值