ELECTRA,全称:Efficiently Learning an Encoder that Classifies Token Replacements Accurately,见论文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》,是这几年一个比较创新的模型,从模型架构和预训练任务都和BERT有一定程度的不同。 掩码语言模型(masked langauge model, MLM),例如BERT,通过预训练方法使用[MASK]来替换文本中一些字符,破坏了文本的原始输入,然后训练模型来重建原始文本。尽管它们在下游NLP任务中产生了良好的结果,但是它们通常需要大量计算才有效。
在论文的开始,作者指出了BERT训练的一个缺点,就是学习效率太慢,因为模型从一个样本中只能学习到15%的token信息,作为替代方案,作者提出了一种更有效的预训练任务,称为Replaced Token Detection(RTD),字符替换探测。RTD方法不是掩盖输入,而是通过使用生成网络来生成一些合理替换字符来达到破坏输入的目的。然后,我们训练一个判别器模型,该模型可以预测当前字符是否被语言模型替换过。实验结果表明,这种新的预训练任务比MLM更有效,因为该任务是定义在所有文本输入上,而不是仅仅被掩盖的一小部分,在模型大小,数据和计算力相同的情况下,RTD方法所学习的上下文表示远远优于BERT所学习的上下文表示。
上图中,左边的图是右边的放大版,纵轴是dev GLUE分数,横轴是FLOPs(floating point operations),Tensorflow中提供的浮点数计算量统计。
从上图可以看到,