IT评测·应用市场-qidao123.com技术社区

标题: 大模型论文:Improving Language Understanding by Generative Pre-Training [打印本页]

作者: 忿忿的泥巴坨    时间: 2025-4-8 08:24
标题: 大模型论文:Improving Language Understanding by Generative Pre-Training
大模型论文:Improving Language Understanding by Generative Pre-Training

OpenAI2018
文章地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf
摘要

自然语言理解包括各种各样的任务,如文本蕴涵、题目回答、语义相似性评估和文档分类。只管大量未标志的文本语料库丰富,但用于学习这些特定任务的标志数据很少,这使得鉴别训练模型难以充分实验。我们证明,通过在不同的未标志文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行鉴别性微调,可以实现这些任务的巨大收益。与从前的方法相反,我们在微调期间使用任务感知输入转换来实现有效的传输,同时需要对模型体系结构进行最小的更改。我们在自然语言理解的广泛基准上证明了我们的方法的有效性。我们的通用任务不可知模型优于为每个任务使用专门计划的架构的鉴别训练模型,在研究的12个任务中的9个任务中显著提高了技术水平。例如,我们在知识性推理(故事完形测试)上实现了8.9%的绝对改进,在题目回答(RACE)上实现了5.7%的绝对改进,在文本蕴涵(MultiNLI)上实现了1.5%的绝对改进
文本蕴含(Textual Entailment) 是自然语言处理(NLP)中的一项核心任务,旨在判断一段文本(称为“条件”,Premise)是否可以或许逻辑上蕴含另一段文本(称为“假设”,Hypothesis)。其本质是分析两者之间的语义关系
模型背景


模型框架及训练



                                                    L                               1                                      (                            U                            )                            =                                       ∑                               i                                      log                            ⁡                            P                            (                                       u                               i                                      ∣                                       u                                           i                                  −                                  k                                                 ,                            …                            ,                                       u                                           i                                  −                                  1                                                 ;                            Θ                            )                                  L_1(U) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)                     L1​(U)=i∑​logP(ui​∣ui−k​,…,ui−1​;Θ)

                                                    h                               0                                      =                            U                                       W                               e                                      +                                       W                               p                                            h_0 = U W_e + W_p                     h0​=UWe​+Wp​
                                                    h                               l                                      =                            transformer_block                            (                                       h                                           l                                  −                                  1                                                 )                                     ∀                            i                            ∈                            [                            1                            ,                            n                            ]                                  h_l = \text{transformer\_block}(h_{l-1}) \quad \forall i \in [1, n]                     hl​=transformer_block(hl−1​)∀i∈[1,n]
                                         P                            (                            u                            )                            =                            softmax                            (                                       h                               n                                                 W                               e                               T                                      )                                  P(u) = \text{softmax}(h_n W_e^T)                     P(u)=softmax(hn​WeT​)

特定于任务的转换



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4