王柳 发表于 2024-9-28 17:49:36

深度学习模子之BERT的24个小模子源码与预训练紧凑模子的重要性

原始信息



[*]论文: Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
[*]作者:Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
[*]地点:arxiv.org/pdf/1908.08…
[*]中文:阅读精良的学生学得更好:关于预训练紧凑模子的重要性
[*]源码:见微小BERT模子的源码地点章节
   现在24个较小的BERT模子的发布版本,现在只有英语,采用WordPiece掩码。
笔者翻译水平有限,有误之处请指正,万分感激。
摘要

自然语言表征模子的最新发展陪同着巨大而昂贵的模子,这些模子通过自监督的预训练的方式来利于通用范畴文本。 由于应用此模子的下任务的本钱,关于预训练的语言表征模子的几个压缩技术已经被提及(Sun等.,2019a;Sanh,2019) 。 然而,令人惊讶的是仅预先训练和微调紧凑型模子的简朴基线已经被忽视。 在文本中,我们首先展示了较小体系架构中保留预训练的重要性,而且微调预先训练的紧凑模子可以与并行工作中提出的更精细的方法相竞争。 从预训练凑型模子开始,我们将探索通过标准知识提取从大的微调模子中转移任务知识,由此产生的简朴、有效且通用的算,将给预训练提取带来更多的提拔。通过广泛的实验,我们更加普遍的探索了在两个研究不敷的变量(模子巨细与未标志任务的数据属性)下在预训练与提取之间的相互作用。我们有一个让人吃惊的发现,即使是按序给相同的数据,他们仍然会产生复合效应。为了加速未来的研究,我们公开了24个预训练的微小BERT模子.
介绍

在通用范畴文本语料库上的自监督学习,最终任务学习是实现基于深度和广度Transforme网络的两阶段训练方法(Vaswani等.,2017)来促进语言明白(Devlin等,2018;Sun等,019b;Sun等,2019b;Liu等,2019)。然而,最先进的模子有数亿个参数,计算本钱很高。我们的目标是在有限的内存和延长预算下有收获。我们寻求一个性能精良,通用且简朴的训练方法,能够利用额外的资源,比方未标志的任务数据。
在考虑压缩技术之前,我们先从以下问题开始:我们能使用同样的两阶段方法训练较小模子么?换一句话说,我们探索了将语言模子预训练和任务微调直策应用于紧凑模子的想法。到现在为止,这个简朴的基线一直被NLP社区所忽视,这大概潜在于如许的一个假设,当核心集中在最终任务而不是通用语言模子的目标时有限本领的紧凑模子会得到更好的资本化。与我们一起提出了标准预训练+微调程序的变体的也有,但通用性有限(Sun等人,2019a;Sanh,2019)。我们惊喜的发现,在最初的公式中举行预训练+微调是构建紧凑模子的一种有竞争力的方法。
https://i-blog.csdnimg.cn/direct/80f0fae9b07f4944b2131c59df657bef.png
从这里开始,我们把它称为预训练提取(PD) 如上图。PD优于预训练+微调(PF)基线,尤其是在存在用于蒸馏的大转移集的情况下。特别是在提取大型转移设置的情况下。 在一项对照研究中,遵循并行工作中的数据和模子架构设置,我们展示了预训练蒸馏优于或具有更精细方法的竞争力,这些方法使用更复杂的任务知识提取(Sun等,2019a)或从未标志文本中举行更复杂的预训练(Sanh,2019)时。前者从中级西席激活中提取任务知识,从启发式初始化的学生开始。后者在更大的LM西席的帮助下,对在未标志文本上预先训练的紧凑模子举行微调。
本论文中最值得留意的贡献之一是:就预训练提取及其基线在各种条件下的表现 举行了广泛的实验。我们调查先前工作中研究不敷的两个要点:模子巨细和未标志数据的数目/质量。在对24个不同尺寸(4m至110m参数)的模子举行实验时深度/宽度的权衡,我们观察到,经过预训练的学生更好地利用深度而非宽度,这个属性对于随机初始化的模子是不可见的。对于第二点,我们改变了未标志数据的数目,以及它与标志集的相似性。有趣的是,预训练的取比标准提取对传递集中的这些变革更具鲁棒性。
末了,为了深入相识LM预训练和任务特定提取之间的相互作用,我们在同一数据集上依次举行了这些操纵。在这个实验中,尽管单个操纵数据集用于这两个步调,这种复合效应令人惊讶,表明预训练和蒸馏是学习数据的互补方面。在这个实验中,尽管两个步调都使用了单个数据集,但这两个操纵链接起来的性能比单独应用的任何一个都要好。这种复合效应令人惊讶,表明预训练和提取是学习数据的互补方面。
结论

我们举行了大量的实验,以相识知识提炼和预训练+微调算法是怎样单独工作的,以及它们怎样交互。我们发现他们利益的复合,而且揭示训练训提取的力气。 这是一种简朴且有效的方法,可以最大限度的利于可用:一个强盛的老师,复合数据源(他们的利益是复合的,并揭示了预训练蒸馏的力气,这是一种简朴而有效的方法,可以最大限度地利用所有可用的资源:一个强盛的老师,以及多个数据源(标志集、未标志转移集和未标志LM集)。
章节阐明


[*]INTRODUCTION:介绍(已译)
[*]PROBLEM STATEMENT:问题描述
[*]PRE-TRAINED DISTILLATION:预训练提取
[*]COMPARISON TO CONCURRENT WORK:与并行工作的比力
[*]ANALYSIS SETTINGS:设置分析
[*]ANALYSIS:实验分析
[*]RELATED WORK: 相关工作
[*]CONCLUSION:结论(已译)
微小BERT模子的源码地点

H=128H=256H=512H=768L=22/128 (BERT-Tiny)2/2562/5122/768L=44/1284/256 (BERT-Mini)4/512 (BERT-Small)4/768L=66/1286/5122/5126/768L=88/1288/2568/512 (BERT-Medium)8/768L=1010/12810/25610/51210/768L=1212/12812/25612/512- GLUE分数

https://i-blog.csdnimg.cn/direct/4f7a018b0a9e4c488cd70559b9fe8c03.png
相关阅读

深度学习经典模子之BERT(上)
深度学习经典模子之BERT(下)
[参考]


[*]见原论文
[*]部分数据来源于官方源码站 github.com/google-rese…
如果您也对AI大模子感爱好想学习却苦于没有方向
页: [1]
查看完整版本: 深度学习模子之BERT的24个小模子源码与预训练紧凑模子的重要性