标题: 大模型论文:Improving Language Understanding by Generative Pre-Training [打印本页] 作者: 忿忿的泥巴坨 时间: 2025-4-8 08:24 标题: 大模型论文:Improving Language Understanding by Generative Pre-Training 大模型论文:Improving Language Understanding by Generative Pre-Training
无监督预训练:给定一个无监督的令牌语料库 U = { u 1 , … , u n } U = {\{u_1,…,u_n}\} U={u1,…,un},本文使用尺度的语言建模目标来最大化以下大概性:
L 1 ( U ) = ∑ i log P ( u i ∣ u i − k , … , u i − 1 ; Θ ) L_1(U) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta) L1(U)=i∑logP(ui∣ui−k,…,ui−1;Θ)
k k k是上下文窗口,本文使用多层的 Transformer 解码器作为语言模型,它是 Transformer 的一种变体。该模型对输入的上下文标志应用多头自留意力操纵,然后在position-wise前馈层上生成目标令牌的输出分布:
h 0 = U W e + W p h_0 = U W_e + W_p h0=UWe+Wp
h l = transformer_block ( h l − 1 ) ∀ i ∈ [ 1 , n ] h_l = \text{transformer\_block}(h_{l-1}) \quad \forall i \in [1, n] hl=transformer_block(hl−1)∀i∈[1,n]
P ( u ) = softmax ( h n W e T ) P(u) = \text{softmax}(h_n W_e^T) P(u)=softmax(hnWeT)
有监督微调:在无监督训练后,本文使用有监督的方式对模型进行微调,个标注数据集 C C C,每个实例由一组输入token,$x^1, \dots, x^m 和标签 和标签 和标签y 构成,输入被传入预训练的模型,通过最后一个 T r a n s f o r m e r 块的激活 构成,输入被传入预训练的模型,通过最后一个Transformer块的激活 构成,输入被传入预训练的模型,通过最后一个Transformer块的激活h_l^m ,然后再输入到一个额外的线性输出层,该层带有参数 ,然后再输入到一个额外的线性输出层,该层带有参数 ,然后再输入到一个额外的线性输出层,该层带有参数 W_y 来预测 来预测 来预测 y$:
P ( y ∣ x 1 , … , x m ) = softmax ( h l m W y ) P(y | x^1, \dots, x^m) = \text{softmax}(h_l^m W_y) P(y∣x1,…,xm)=softmax(hlmWy)
优化目标为:
L 2 ( C ) = ∑ ( x , y ) log P ( y ∣ x 1 , … , x m ) L_2(C) = \sum_{(x, y)} \log P(y | x^1, \dots, x^m) L2(C)=(x,y)∑logP(y∣x1,…,xm)
本文还发现:将语言建模作为微调辅助目标,通过 (a) 改进监督模型的泛化,以及 (b) 加速收敛来帮助学习,优化目标为:
L 3 ( C ) = L 2 ( C ) + λ ⋅ L 1 ( C ) L_3(C) = L_2(C) + \lambda \cdot L_1(C) L3(C)=L2(C)+λ⋅L1(C)
本文使用了一种遍历样式的方法,将结构化输入转换为预训练模型可以处理的有序序列。这些输入转换方法允许我们制止对架构做出大量的修改,从而在不同任务中共享架构。下面扼要描述了这些输入转换,而且图1提供了一个视觉示意。全部的转换都包括添加随机初始化的开始和结束标志 < s > , < e > < s > , < e > < s > , < e > <s>,<e><s>, <e><s>,<e> <s>,<e><s>,<e><s>,<e>
文本蕴涵:对于蕴涵任务,我们将条件 p和假设 h的标志序列拼接,并在它们之间加上分隔符标志($)
相似性:对于相似性任务,两个句子之间没有固有的次序。为此,我们修改输入序列,使其包含两个大概的句子次序(并在它们之间添加分隔符),然后分别处理这两个序列,生成两个序列表现 h l m h_l^m hlm,这些表如今输入到线性输出层之前逐元素相加
问答和知识推理:对于这些任务,给定一个文档 z z z,一个题目 q q q,以及一组大概的答案$ {{a_k}}$。将文档上下文和题目拼接,并在它们之间添加分隔符标志,得到 $[z;q;$;a_k]$。每个序列会独立地被模型处理,然后通过softmax归一化,输出大概答案的概率分布。