生成信息提取的大型语言模型综述
摘要信息提取(IE)旨在从简单的天然语言文本中提取布局知识。最近,生成型大型语言模型(LLMs)在文本理解和生成方面体现出了明显的能力。因此,已经提出了很多基于生成范式将LLM集成到IE使掷中的工作。为了对IE使命的LLM工作举行全面的系统回顾和探索,在这项研究中,我们调查了该领域的最新希望。我们起首根据各种IE子使命和技能对这些作品举行分类,然后对最先进的方法举行实证分析,发现使用LLM的IE使命的新兴趋势。基于全面的综述,我们确定了一些技能见解和有前景的研究方向,值得在将来的研究中进一步探索。我们维护一个公共存储库,并持续更新GitHub上的相关作品和资源(LLM4IE存储库)。
关键字
信息抽取,大型语言模型,综述
一、简介
信息提取(IE)是天然语言处理(NLP)中的一个关键领域,它将纯文本转换为布局化知识(比方,实体,关系和事件),并作为广泛的卑鄙使命的基本要求,如知识图构建,知识推理和题目回答。典型的IE使命包括定名实体识别(NER),关系提取(RE)和事件提取(EE)。然而,执行IE使命自己就是一项挑战。这是由于IE涉及从各种泉源提取信息,并处理复杂和不断变化的领域需求。与传统的NLP使命差别,IE包含广泛的目标,如实体提取,关系提取等。在IE中,提取目标体现出复杂的布局,其中实体表示为跨度布局(字符串布局),关系表示为三元布局。别的,为了有效地处理差别的信息提取使命,有必要采用多个独立的模型。这些模型针对每个特定使命单独练习,不共享任何资源。然而,这种方法有一个缺点:管理大量的信息提取模型在构建和练习所需的资源方面变得昂贵,如解释语料库。
大型语言模型(LLM)的出现,如GPT-4 ,极大地推动了NLP领域的发展,由于它们在文本理解和生成方面具有非凡的能力。使用自回归预测的预练习LLM答应它们捕获文本语料库中的固有模式和语义知识。这加强了LLM执行零次和少次学习的能力,使它们能够一致地对各种使命举行建模,并作为数据加强的工具。别的,LLM可以作为复杂使命规划和执行的智能署理,使用记忆检索和各种工具来提高服从并成功完成使命。因此,最近对采用LLM生成布局信息而不是从纯文本中提取布局信息的生成IE方法的兴趣激增。这些方法已被证实在实际天下的场景中比区分方法更实用,由于它们可以处理包含数百万个实体的模式而不会显着降低性能。
一方面,LLM吸引了研究人员的极大关注,以探索其在IE的各种场景和使掷中的潜力。除了在个别IE使掷中体现精彩外,LLM还具有以通用格式有效建模全部IE使命的卓越能力。这是通过捕获使命间的依靠性与指导性提示,并实现一致的性能。另一方面,最近的工作已经显示了LLM的突出概括,不仅通过微调从IE练习数据中学习,而且还在少数乃至零拍摄场景中提取信息,仅依靠于上下文示例或指令。
然而,现有的综述并没有为上述两组研究工作提供对这些领域的全面探索:1)满足多种使命的通用框架和 2)针对练习数据有限的场景的尖端学习技能。社区迫切需要更深入地分析如何将LLM更适本地应用于IE使命,以提高IE字段的性能。这是由于在学习和理解知识方面,将LLM应用于IE仍然存在挑战和题目。这些挑战包括天然语言输出和布局化情势之间的不一致,LLM中的幻觉题目,上下文依靠性,高计算资源需求,更新内部知识的困难等。
https://i-blog.csdnimg.cn/direct/fd606600acf7406c989d9d6a2c27ec93.png
图1 LLM已被广泛探索用于生成IE。这些研究包括各种IE技能,为单个子使命筹划的专门框架,以及能够同时办理多个子使命的通用框架
在本综述中,我们提供了一个全面的探索LLM的生成式IE,如图1所示。为了实现这一目标,我们主要使用两种分类法对现有方法举行分类:(1)浩繁IE子使命的分类法,其目标是对可以单独或同一提取的差别类型的信息举行分类;(2)IE技能的分类法,其对使用LLM举行生成式IE的各种新方法举行分类,特别是在低资源场景下。别的,我们提出了一个专门针对IE技能在各个领域中的应用举行的研究全面的审查。我们还讨论了旨在评估和分析用于IE的LLM性能的研究。根据以上划分,我们构建了一个相关研究的分类系统,如图2所示。我们还比力了几种有代表性的方法,以更深入地了解它们的潜力和局限性,并对将来的发展方向举行了有看法的分析。据我们所知,这是第一次对LLM的生成式IE举行调查。
https://i-blog.csdnimg.cn/direct/b359fc75806c470cac5c11241063367f.png
https://i-blog.csdnimg.cn/direct/3396205491324316986738c06a731770.png
https://i-blog.csdnimg.cn/direct/f7ab6768a71c4c0ab28b4f79f8eebd9e.png
图2 使用LLM的生成IE研究的分类。由于篇幅所限,有些论文被省略了。
本综述的其余部门组织如下:我们起首先容了生成IE的定义和全部子使命的目标在第2节。然后,在第3节中,我们先容了每个使命和通用IE的代表性模型,并比力了它们的性能。在第4节中,我们总结了IE LLM的差别学习技能。别的,我们在第五节先容了针对特定领域的工作,并在第六节先容了最近的研究,评估和分析了LLMs在IE使命上的能力。最后,我们提出了将来的研究的潜伏的研究方向在第7节。在第8节中,我们提供了最常用的LLM和数据集统计的全面总结,以供研究人员参考。
二、生成式IE的分类
在本节中,我们提供了判别式和生成式IE的正式定义,并总结了IE子使命,如所述。本调查主要关注定名实体识别(NER),关系提取(RE)和事件提取(EE)的使命,由于这些使命在IE论文中受到最多关注。示比方图3所示。
https://i-blog.csdnimg.cn/direct/c68dd0f2bd3e46188888aea418cc9998.png
图3差别IE使命的示例
(1)对于判别模型,目标是最大化数据的可能性。这涉及到考虑一个带解释的句子https://latex.csdn.net/eq?x和一个可能重叠的三元组的集合。https://latex.csdn.net/eq?t_%7Bj%7D%20%3D%20%28s%2Cr%2Co%29%3A
https://latex.csdn.net/eq?p_%7Bcls%7D%28t%7Cx%29%20%3D%20%5Cprod%5Climits_%7B%28s%2Cr%2Co%29%5Cin%20t_j%7D%20p%28%28s%2Cr%2Co%29%7Cx_j%29%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%5C%3A%20%281%29
另一种区分方法涉及使用针对每个位置i的顺序加标签来生成标签。对于由n个单词构成的句子x,基于“BIESO”(开始、内部、结束、单个、外部)表示法模式来解释n个差别的标签序列。在模型的练习期间,目标是通过使用每个位置https://latex.csdn.net/eq?i处的隐蔽向量https://latex.csdn.net/eq?h_i来最大化目标标签序列的对数似然:
https://latex.csdn.net/eq?p_%7Btag%7D%20%28y%7Cx%29%20%3D%20%5Cfrac%7Bexp%28h_i%2Cy_i%29%7D%7Bexp%28exp%28h_i%2Cy_i%27%29%29%7D%5C%3A%5C%3A%5C%3A%5C%3A%5C%3A%5C%3A%282%29
(2)这三种类型的IE使命可以以生成的方式订定。给定输入文本(比方,句子或文档)与https://latex.csdn.net/eq?n个标记的序列https://latex.csdn.net/eq?X%20%3D%20%5Bx_1%2C%5Ccdots%2Cx_n%5D、提示符https://latex.csdn.net/eq?P和目标提取序列https://latex.csdn.net/eq?Y%20%3D%20%5By_1%2C%5Ccdots%2Cy_n%5D,目标是最大化自回归公式中的条件概率:
https://latex.csdn.net/eq?p_%7B%5Ctheta%7D%20%28Y%7CX%2CP%29%20%3D%20%5Cprod%20%5Climits_%7Bi%3D1%7D%5E%7Bm%7Dp_%7B%5Ctheta%7D%28y_i%7CX%2CP%2Cy_%7B%3Ci%7D%29%20%5C%3A%5C%3A%5C%3A%5C%3A%5C%3A%5C%3A%283%29
其中https://latex.csdn.net/eq?%5Ctheta提供LLM的参数,这些参数可以被冻结或可练习。在LLM时代,一些作品提出了在https://latex.csdn.net/eq?X上附加额外的提示或指令https://latex.csdn.net/eq?P,以加强LLM使命的可理解性。即使输入文本https://latex.csdn.net/eq?X保持不变,每个使命的目标序列也会有所差别:
[*]定名实体识别(NER)包括两个使命:实体识别和实体类型化。前一个使命涉及标识实体的范围,后一个使命偏重于为这些已标识的实体分配类型。
[*]关系提取(RE)在差别的作品中可能具有差别的设置。我们按照文献使用三个术语对其举行分类:(1)关系分类是指对两个给定实体之间的关系类型举行分类;(2)关系三元组是指识别关系类型和相应的头尾实体跨度;(3)关系严酷是指给出精确的关系类型,跨度和头尾实体的类型。
[*]事件提取(EE)可以分为两个子使命:(1)事件检测(在某些作品中也称为事件触发器提取)旨在识别和分类最清楚地代表事件发生的触发词和类型。(2)事件论元抽取的目标是从句子中识别和分类事件中具有特定脚色的论元。
三、差别信息提取使命的LLM
在本节中,我们起首先容IE子使命的相关LLM技能,包括NER(§3.1),RE(§3.2)和EE(§3.3)。我们还举行了实验分析,以评估各种方法在三个子使命的代表性数据集上的性能。别的,我们将通用IE框架分为两类:天然语言(NL-LLM)和代码语言(Code-LLM),以讨论它们如何使用同一的范式(§3.4)对三个差别的使命举行建模。
3.1定名实体识别
nNER是IE的紧张构成部门,可以看作是RE和EE的前身或子使命。这也是其他天然语言处理使掷中的一项基本使命,因此引起了研究人员的极大关注,以探索低密度脂蛋白时代的新可能性。考虑到序列标注和生成模型之间的差距,GPT-NER将NER转化为生成使命,并提出了一种自验证策略来改正将空输入错误标记为实体的题目。谢等人。提出了一种无需练习的自改进框架,该框架使用LLM对未标注语料库举行预测,从而得到伪句示范,从而提高零射击净入学率的LLM的性能。
表1显示了从原始论文中获得的五个主要数据集的NER比力。我们可以观察到:
表1 定名实体识别(判断和分型)的LLM与Micro-F1指标(%)的比力
†表示该模型是有区别的。我们展示了一些普适的和判别的模型,以供比力。IE技能包括跨域学习(CDL)、零触发提示(ZS Pr)、上下文学习(ICL)、监视微调(SFT)、数据加强(DA)。单元。表示该模型是否具有普适性。上。5表示OntoNotes 5.0。数据集和主干的具体信息见第8节。全部后续表格的设置都与此格式一致。
https://i-blog.csdnimg.cn/direct/49302c9b583440a186b40cbb3290d0fd.png
[*]1)在少数提示和零提示设置的模型仍然有一个巨大的性能差距背后的SFT和DA。
[*]2)尽管主干之间的差异很小,但在ICL范式下,方法之间的性能差异很大。比方,GPT-NER在每个数据集上与其他方法的F1值差距至少为6%,最高可达19%。
[*]3)与ICL相比,SFT后差别模型之间的性能只有微小的差异,即使它们的主干中的参数可能相差数百倍。
[*]4)使用SFT范式练习的模型的性能在数据集之间体现出更大的可变性,特别是对于通用模型。比方,YAYI-UIE 和KnowCoder 在CoNLL 03上的体现分别优于其他模型至少2.89%和1.22%,而与GENIA上的最佳模型相比,分别降落了7.04%和5.55%。我们假设,这种差异可能是由于这些模型在主要来自新闻和社交媒体领域的差别数据集上举行练习,而GENIA在练习集中只占一小部门,由于它属于生物医学领域;因此,差别领域之间的分配差距很大,最终影响到业绩成果。别的,通用模型需要同时练习多种的子使命,这不可克制地加剧了这种分配差距。
[*]5)相反,EnTDA 在全部数据集上体现出非常的稳定性并优于其他方法,从而证实了DA范式在办理特定使命时的鲁棒性。
3.2关系抽取
RE在IE中也起着紧张的作用,如第2节所述,IE在差别的研究中通常有差别的设置。如所示,为了办理由于在防备调解数据集中RE的发生率较低而导致的LLM在RE使命上的性能较差题目,QA 4 RE 引入了一个框架,通过将RE使命与QA使命对齐来加强LLM的性能。GPT-RE 结合了使命感知表示和丰富的表达使用推理逻辑来改进实体和关系之间的低相关性以及无法解释输入-标签映射。由于大量预定义的关系类型和不受控制的LLM,Li等人。提出将LLM与天然语言推理模块集成以生成关系三元组,加强文档级关系数据集。
如表2和表3所示,我们统计发现,由于学习多使命之间的依靠关系,通用IE模型通常可以更好地办理更困难的关系严酷题目,而特定于使命的方法可以办理更简单的RE子使命(比方关系分类)。别的,与NER相比,很明显,RE模型之间的性能差异更加明显,从而突出了LLM在办理RE使命方面的潜力。
表2 关系提取的LLM与“relationstrict” Micro-F1度量的比力(%)。†表示该模型是有区别的
https://i-blog.csdnimg.cn/direct/8330a9f878c54550b47daab2e6509168.png
表3 用于关系分类的LLM与Micro-F1度量的比力(%)
https://i-blog.csdnimg.cn/direct/214f174823634ab491b8ff0ecaa00b2d.png
3.3事件抽取
事件可以定义为特定事件或在给定上下文中发生的事件。最近,很多研究旨在通过使用LLM提取事件触发器和参数来理解事件并捕获它们的相关性,这对于各种推理使命至关紧张。比方,Code4Struct 使用LLM将文本转换为代码来处理布局化预测使命,使用编程语言功能通过布局和代码之间的对齐来引入外部知识和束缚。考虑到在扩展的上下文中差别论点之间的相互关系,PGAD 采用文本扩散模型来创建各种上下文感知的提示表示,通过识别多个脚色特定的参数跨度查询并将其与上下文协调来加强事件级和文档级事件参数提取。
从表4中最近的研究结果可以看出,现在绝大多数方法都是基于SFT范式,只有少数方法使用LLM举行零次或少次学习。别的,生成式方法的性能远远优于判别式方法,特别是在参数分类使命的度量方面,表明生成式LLM在EE中具有巨大的潜力。
表4 ACE 05上事件提取的Micro-F1值比力。评估使命包括:触发器标识(Trg-I)、触发器分类(Trg-C)、自变量标识(Arg-I)以及自变量分类(Arg-C)†表示该模型是有区别的。
https://i-blog.csdnimg.cn/direct/d27b1b6bbf2b4d4487eba03c90517a82.png
3.4通用信息抽取
差别的IE使命差异很大,具有差别的优化目标和特定于使命的模式,需要单独的模型来处理差别IE使命、设置和场景的复杂性。如图2所示,很多工作仅仅集中在IE的子使命上。然而,LLM的最新希望导致了几项研究中提出了一个同一的生成框架。该框架旨在对全部IE使命举行建模,捕获IE的共同能力并学习多个使命之间的依靠关系。Uni-IE的提示格式通常可分为基于天然语言的LLM(NL-LLM)和基于代码的LLM(代码-LLM),如图4所示。
图4 通用IE的NL-LLM和Code-LLM的提示比力。基于NL和基于代码的方法都试图构建一个通用的模式,但它们在提示格式和使用LLM生成功能的方式方面有所差别。此图取自和。
https://i-blog.csdnimg.cn/direct/e2af52bbccc7400fbe0b105e504ed383.png
NL-LLMs:
基于天然语言的方法将全部的IE使命同一在一个通用的天然语言模式中。比如说,UIE 提出了一个同一的文本到布局生成框架,该框架对提取布局举行编码,并通过布局化提取语言捕获常见的IE功能。InstructUIE 通过构建用于微调LLM的专家编写的指令来加强UIE,以一致地建模差别的IE使命并捕获使命间的依靠性。别的,ChatIE 探索了使用LLM(如ChatGPT )举行零射击提示,将使命转换为多轮问答题目。
Code-LLMs:
另一方面,基于代码的方法通过生成具有通用编程模式的代码来同一IE使命。Code 4UIE 提出了一种通用的检索扩充代码生成器框架,它使用Python类来定义模式,并使用上下文学习来生成从文本中提取布局知识的代码。别的,CodeKGC 使用了代码中固有的布局知识,并采用了模式感知提示和理性加强生成来提高性能。为了使LLM能够遵循现成的指导方针,GoLLIE 通过与解释指导方针保持一致,加强了对不可见IE使命的零掷中能力。
一样平常来说,NL-LLM接受了广泛的文本练习,可以理解和生成人类语言,这使得提示和说明更加简洁,更轻易筹划。然而,NL_LLM可能会产生不天然的输出,由于IE使命的独特语法和布局,与练习数据差别。代码作为一种情势化的语言,具有跨差别模式精确表示知识的内在能力,这使得它更得当于布局预测。但是基于代码的方法通常需要大量的文本来定义Python类(参见图4),这反过来限定了上下文的样本巨细。通过表1、表2和表4中的实验比力,我们可以观察到,对于大多数数据集,SFT后的Uni-IE模型在NER、RE和EE使掷中优于特定使命模型。
3.5 使命总结
在本节中,我们探究了IE中的三个主要使命及其相关的子使命,以及同一这些使命的框架。一个关键的观察结果是生成LLM在NER中的应用越来越多,这已经取得了显着的进步,而且仍然是IE中高度活跃的研究领域。相比之下,关系提取和事件提取等使命的应用相对较少,特别是对于严酷关系提取和仅检测事件提取。这种差异可能归因于NER的关键紧张性,其在各种卑鄙使掷中的实用性,以及其相对简单的布局化输出,这有助于大规模的监视微调。
别的,一个值得注意的趋势是IE使命的同一模型的出现,使用当代大型模型的一样平常文本理解能力。一些研究已经提出了同一的生成框架,捕获跨IE使命的共同能力,并学习它们之间的依靠关系。这些同一的方法可以大致分为天然语言的方法和基于代码的方法,每种方法都有差别的优点和局限性。表1、表2、表3和表4中总结的实验结果表明,通用IE模型通常在更复杂的严酷关系提取使命上体现更好,由于它们能够学习多个使命之间的依靠关系。别的,生成方法在事件提取使掷中的体现明显优于判别方法,特别是在参数分类中,突出了生成LLM在这一领域的巨大潜力。
四、生成式IE中LLM的4种技能
在本节中,我们根据技能对最近的方法举行分类,包括数据加强(第4.1节,指通过使用LLM对现有数据应用各种转换来加强信息),提示筹划(第4.2节,教唆用特定于使命的指令或提示来指导模型的活动)。Zero-shot学习(§4.3,指的是在没有针对特定IE使命的任何练习示例的情况下生成答案),束缚解码生成(§4.4,指的是在服从特定束缚或规则的情况下生成文本的过程),少镜头学习(§4.5,指的是通过练习或上下文学习从少量标记的示例中泛化),监视微调(第4.6节,指的是使用标记数据在IE使命上进一步练习LLM),以突出用于使LLM顺应IE的常用方法。
4.1数据加强
数据加强涉及生成故意义的和多样化的数据,以有效地加强培训示例,同时克制引入不切实际的、误导性的和偏移的模式。最近强盛的LLM在数据生成使掷中也体现出了卓越的性能,这吸引了很多研究人员使用LLM为IE生成合成数据的注意力。根据其技能的差别,可以大致分为四种策略,如图5所示。
https://i-blog.csdnimg.cn/direct/615f6f75f3ea42de9f7c8cb1b9661f46.png
图5 数据加强方法的比力
数据标注
该策略直接使用LLM生成带标签的布局数据。比方,Zhang等人提出了LLMaAA,通过在主动学习循环中使用LLMs作为解释器来提高精确性和数据服从,从而优化解释和练习过程。AugURE 采用句内对扩充和跨句对抽取来加强无监视RE中正对的多样性,并引入了句对的边缘损失。Li等人办理了从长上下文中提取文档级关系的困难,并提出了一种主动化解释DocRE的一种推理方法,它将LLM与天然语言推理模块相结合,以生成关系三元组。
知识检索
该策略有效地从用于IE的LLM中检索相关信息,这雷同于检索扩充生成(RAG)。PGIM 提出了一个多模态NER的两阶段框架,该框架使用ChatGPT作为隐式知识库,以启发式方式检索辅助知识,从而实现更高效的实体预测。Amalvy等人提出通过生成合成上下文检索练习数据集并练习神经上下文检索器来提高长文档的NER。Chen等人。专注于多模态NER和RE的使命,并展示了他们通过采用一系列包含差别方面的CoT提示来加强常识推理技能的方法,包括名词,句子和多模态输入。别的,他们还采用了数据加强技能,如样式、实体和图像利用,以进一步提高性能。
反向生成
该策略鼓励学习者通过使用作为输入提供的布局化数据来生成天然的文本或题目,这与学习者的培训范式相一致。比方,SynthIE 表明,LLM可以通过反转使命方向为复杂使命创建高质量的合成数据,并练习优于以前基准的新模型。星星不是依靠于限定可推广性和可扩展性的地面事实目标,而是从有效的触发器和参数生成布局,然后通过筹划细粒度的指令,错误识别和迭代修订来生成LLM的段落。为了办理在保留实体的同时保持文本连贯性的困难,EnTDA 提出了一种涉及利用原始文本的实体列表的方法。此利用包括添加、删除、替换或互换实体。并进一步引入分集波束搜索来加强实体到文本生成过程中的分集。
用于微调的合成数据集
这个策略涉及到通过查询LLM来生成一些数据以举行预调优。通常情况下,这些数据是由一个更强盛的模型生成的,用于微调对话中的指令,然后提取到一个更小的模型中,使其也能够获得更强的零触发能力。比方,UniversalNER 探索了以使命为中心的指令调解的目标蒸馏,以练习在开放式NER中体现精彩的学生模型,该模型使用ChatGPT作为西席模型,并将其蒸馏成较小的UniversalNER模型。GNER 提出了负面实例的整合,通过引入上下文信息和改进标签边界来加强现有方法。作者使用Pile-NER练习了他们的模型,Pile-NER是一个数据集,包括13 K个差别实体类别的约莫240 K个实体,这些实体从Pile语料库中采样,并使用ChatGPT举行处理以生成实体。结果表明,在不可见实体域中,零触发性能得到了改善。
4.2提示筹划
提示工程是一种用于加强LLM能力而不改变其网络参数的技能。它需要使用使命特定的指令,称为提示,来指导模型的活动。快速筹划的实践已在各种应用中证实是成功的。毫无疑问,有效的提示筹划对于提高LLM在IE使命上的体现也起着至关紧张的作用。在本节中,我们将根据差别的策略对提示筹划方法举行分类,并具体解释这些技能背后的潜伏动机:
问答(QA)
LLM使用基于对话的方法举行预调,与IE使命的布局化预测要求相比,这会产生差距。因此,最近已经努力采用QA提示方法来加强LLM并更无缝地促进所需结果的生成。比方,QA 4 RE 发现LLM每每在RE上体现不佳,由于用于练习它们的防备调解数据集具有较低的RE使命发生率,因此发起将RE重新定义为多项选择QA,以使用防备调解数据集中QA使命的较高盛行率。Li等人。分析了现有RE提示的局限性,并提出了一种称为summarize-andask提示的新方法,该方法使用LLM递归地将零拍摄RE输入转换为有效的QA格式。它还显示出在提取超过搭接关系,有效应对非以上关系的挑战。ChatIE 提出了一个两阶段框架,将零镜头IE使命转换为多轮QA题目。框架最初识别差别类型的元素,然后对每个识别的元素类型执行顺序IE过程。每个阶段都采用了多轮次QA流程,其中使用模板和先前提取的信息构建提示。
头脑链(CoT)
CoT 是一种与LLM一起使用的提示策略,通过提供逐步和连贯的推理链作为指导模型响应生成的提示来加强其性能。CoT提示比年来得到了关注,而且正在举行研究探索其对IE使命的有效性。LLtNER 将LLM与基于LtNER的逻辑学和实体定义相结合。它提示LLM根据提供的实体类型定义生成潜伏实体及其解释的列表。Bian等人。提出了一种使用LLM改善生物医学NER的两步法。他们的方法涉及使用CoT使LLM能够以逐步的方式处理生物医学NER使命,将其分解为实体跨度提取和实体类型确定。Yuan等人。还提出了CoT提示作为两阶段方法来指导ChatGPT执行时态RE使命的时态关系推理。
自我完满
固然COT技能可以部门地引出LLM的推理能力,但LLM仍不可克制地会产生事实错误。因此,已经有一些努力采用LLM举行迭代自我验证和自我改进,旨在改正结果。比方,Xie等人提出了一个无需练习的自我提升框架,该框架包括三个主要步骤。起首,LLM对未标注语料举行预测,通过自一致性生成自标注数据集。其次,作者探索了差别的策略来选择可靠的解释。最后,在推理过程中,从可靠的自标注数据集中检索出示例,用于上下文学习。ProgGen 涉及引导LLM在特定领域内举行自我反思,从而生成领域相关属性,有助于创建富含属性的练习数据。别的,ProgGen采用了一种主动策略,通过预老师成实体术语并围绕这些实体构建NER上下文数据,从而规避了LLM在处理复杂布局时所面临的挑战
4.3 Zero-shot学习
零触发学习的主要挑战包括确保模型可以有效地推广到它没有练习过的使命和领域,同时还要将LLM的预练习范式与这些新使命相匹配。由于嵌入了大量的知识,LLM在看不见的使命的零射击场景中显示出令人印象深刻的能力。为了在IE使掷中实现LLM的零射击跨域泛化,已经提出了几项工作。这些工作为各种IE使命和领域建模提供了一个通用框架,并引入了创新的培训提示,比方,指令和指南,用于学习和捕获已知使命的使命间依靠性,并将其推广到未知使命和域。对于跨类型泛化,BART-Gen 引入了一个文档级神经模型,将EE使命框定为条件生成,从而提高对未知事件类型的性能和强盛可移植性。
另一方面,为了提高LLM在零镜头提示下的能力(不需要微调),QA4RE 和ChatIE 提出将IE转换为多轮问答题目,以便将其与QA使命对齐,这是解释调解数据集的主要使命。Li等人。集成了头脑链方法,并提出了总结和扣问提示,以办理确保黑盒LLM输出可靠性的挑战。
4.4束缚解码生成
LLM是预先练习的模型,最初是在预测序列中的下一个令牌的使命上练习的。这种预练习使研究人员能够使用这些模型的优势来完成各种NLP使命。然而,LLM主要是为生成自由情势的文本而筹划的,而且可能在只有有限的输出集有效的布局化预测使命上体现不佳。
为了应对这一挑战,研究人员探索了使用束缚生成来更好地解码。自回归LLM中的束缚解码生成是指在服从特定束缚或规则的同时生成文本的过程。比方,Geng等人。提出使用语法束缚解码作为控制LM生成的办理方案,确保输出遵循给定的布局。作者引入了依靠于输入的语法来加强机动性,答应语法依靠于输入,并为差别的输入生成差别的输出布局。与以前的方法差别,Zaratiana等人。引入了一种新的方法,通过生成一个线性图来提取实体和关系,其中节点表示文本跨度,边表示关系三元组。他们使用了一个Transformer编码器/解码器体系布局,该体系布局具有指向机制和动态的跨度和关系类型词汇表,以捕获布局特性和边界,同时将输出创建在原始文本中
4.5 Few-shot学习
Few-shot学习只能访问有限数量的标记示例,导致过度拟合和难以捕获复杂关系等挑战。荣幸的是,与小型预练习模型相比,扩大LLM的参数为它们提供了惊人的泛化能力,使它们能够在少量设置中实现精彩的性能。Paolini等人提出了加强天然语言框架之间的翻译; Lu等人提出了文本到布局生成框架; Chen等人提出了NER的协作域前缀调优。这些方法已经实现了最先进的性能,并证实白在少数拍摄设置的有效性。尽管LLM取得了成功,但由于序列标记和文本生成模型之间的差异,它们在免练习IE中面临挑战。为了克服这些限定,GPT-NER 引入了自我验证策略,而GPT-RE 加强了使命感知表示并将推理逻辑纳入丰富的演示中。这些方法有效地展示了如何使用GPT举行上下文学习。CODEIE 和CodeKGC 表明,与NL-LLM相比,将IE使命转换为具有代码风格提示和上下文示例的代码生成使命会导致上级性能。这是由于代码样式的提示提供了更有效的布局化输出表示,使它们能够有效地处理了天然语言中的复杂依靠关系。
4.6 监视微调
使用全部练习数据来微调LLM是最常见和最有前程的方法,它答应模型捕获数据中的潜伏布局模式,并很好地推广到看不见的样本。比方,DEEPRECT 在一组使命不可知的语料库上引入了布局预练习,以加强对语言模型的布局理解。UniNER 探索了有针对性的蒸馏和以使命为中心的教学调解,以练习学生模型用于广泛的应用,如NER。GIELLM 使用混淆数据集对LLM举行微调,收集这些数据集是为了使用相互强化效应来提高多个使命的性能。
4.7 技能总结
数据加强是一个广泛探索的方向,由于它在提高模型性能方面具有潜力。LLM拥有广泛的隐含知识和强盛的文本生成能力,使其非常得当数据解释使命。然而,固然数据加强可以扩展练习数据集并提高模型泛化能力,但它们也可能引入噪声。比方,知识检索方法可以提供关于实体和关系的额外上下文,丰富提取过程。然而,噪声可能会降低提取信息的整体质量。
另一方面,筹划有效的提示仍然是使用LLM(如GPT-4)的巨大挑战。固然QA对话和CoT 策略等方法可以加强LLM的IE功能,但纯粹基于人工智能的方法仍然掉队于较小模型的监视微调。监视微调,包括跨域和少量学习,通常会产生更好的性能,这表明将用于数据解释的大规模LLM与使用额外数据的监视微调相结合可以优化性能并降低手动解释本钱。总之,固然使用LLM的各种IE技能提供了明显的优势,但它们也带来了挑战。精确地结合这些策略可以明显加强IE使命。
五、在特定领域的应用
不可否认的是,LLM在从一些特定领域提取信息方面具有巨大的潜力,比方多模态,多语言,医学,科学,天文,历史,和法律的。别的,我们在表5中提供了统计数据。比方,Chen等人。先容了一种条件提示蒸馏方法,该方法通过将文本图像对与LLM的头脑链知知趣结合来加强模型的推理能力,从而显着提高了多模态NER和多模态RE的性能。Tang等人。探索了LLM在临床文本挖掘领域的潜力,并提出了一种新型练习方法,该方法使用合成数据来提高性能并办理隐私题目。Dunn等人。提出了一种序列到序列的方法,通过使用GPT-3从复杂的科学文本中联合NER和RE,证实白其在材料化学中提取复杂的科学知识有效性。Shao等人探索了使用LLM从天体物理学期刊文章中提取天文知识实体。传统的方法碰到的困难,如体力劳动和有限的普遍性。为了办理这些题目,作者提出了一种包含五个提示元素和八个组合提示的提示策略,旨在专门针对天体标识符和望远镜名称作为感兴趣的实验对象。Gonz 'alez等人。研究了ChatGPT在NER使掷中的体现,特别是在历史文本上。该研究不仅将ChatGPT与其他最先进的基于语言模型的系统举行了比力,还深入研究了在这种零触发设置中碰到的挑战。研究结果揭示了历史文本中实体识别的局限性,包括与解释指南,实体复杂性,代码转换和提示的特异性有关的题目。
表5 特定领域的研究统计
https://i-blog.csdnimg.cn/direct/19ab10cfb5db4719bf0574261263a01c.png
六、 评价与分析
尽管LLM在各种天然语言处理使掷中取得了巨大成功,但它们在信息提取领域的体现仍有改进的空间。为了缓解这个题目,最近的研究已经探索了LLM在IE的主要子使命方面的能力,即, 19 - 019 01:考虑到LLM的上级推理能力,Xie等人提出了四种NER的推理策略,旨在模拟ChatGPT在零射击NER上的潜力。Wadhwa等人。探索了LLM在RE中的使用,发现GPT 3的几次提示可以达到接近SOTA的性能,而Flan-T5可以通过GPT-3生成的头脑链风格解释来改进。对于EE使命,Gao等人。表明,由于需要复杂的指令和缺乏鲁棒性,ChatGPT仍然在努力办理这个题目。
沿着这条门路,一些研究人员通过同时评估多个IE子使命对LLM举行了更全面的分析。Li等人。评估了ChatGPT在IE上的整体能力,包括性能,可解释性,校准和忠诚度。他们发现ChatGPT在标准IE设置中的体现大多比基于BERT的模型差,但在OpenIE设置中体现精彩。别的,Han等人。引入了一种软匹配策略以举行更精确的评估,并将“未解释的跨度”确定为主要错误类型,突出了数据解释质量的潜伏题目。
七、将来方向
针对生成式IE的LLM的开发仍处于早期阶段,而且存在很多改进的时机。
通用IE
“以前的生成式IE方法和基准测试通常是针对特定领域或使命量身定制的,限定了它们的可推广性。尽管最近提出了一些使用线性线性插值法的同一方法,但它们仍然受到肯定的限定(比方,长上下文输入和布局化输出的未对准)。因此,进一步开发能够机动顺应差别领域和使命的通用IE框架(如集成使命特定模型的见解以辅助构建通用模型)是一个很有前景的研究方向。
低资源IE
在资源有限的情况下,具有LLM的生成式IE系统仍然会碰到挑战。有必要进一步探索在语境中学习法,特别是在改进范例的选择方面。将来的研究应优先发展妥当的跨领域学习技能,如领域顺应或多使命学习,以使用来自资源丰富领域的知识。别的,还应探索使用LLM的有效数据解释策略。
IE的提示筹划
筹划有效的指令被认为对LLM的性能有着十分紧张的影响。提示筹划的一个方面是构建可以更好地与LLM的预练习阶段(比方,代码生成)。另一个方面是优化提示以用于更好的模型理解和推理(比方,Chain-of-Thought),通过鼓励逻辑学习者举行逻辑推理或可解释的生成。别的,研究人员还可以探索交互式提示筹划(如多圈QA),其中LLM可以迭代地对主动生成的提取举行改进或提供反馈。
开放IE
开放的IE设置对IE模型提出了更大的挑战,由于它们不提供候选标签集,而且仅仅依靠于模型理解使命的能力。LLM凭借其知识和理解能力,在一些Open IE使掷中具有明显优势。然而,在更具挑战性的使掷中,仍然存在体现不佳的情况,这需要研究人员进一步探索。
8、基准和骨干
8.1代表性数据集
表6 一些代表性IE数据集的总结
https://i-blog.csdnimg.cn/direct/72ead7a930e44ccfb7a64d7adc647d9f.png
在本节中,我们分别先容了NER、RE和EE的代表性数据集,并在表6中对每个数据集举行了扼要总结,以资助读者更好地理解这些使命。
CoNLL 03
CoNLL 03 是NER的代表性数据集,包括1,393篇英语新闻和909篇德语新闻。语料库的英文部门泉源于路透社筹谋的共享使命数据集。该数据集包含四种差别实体类型的解释:PER(人员)、LOC(位置)、ORG(组织)和MISC(包括全部其他类型的实体)。
CoNLL 04
CoNLL 04 是用于RE使命的众所周知的基准数据集,包括从新闻文章中提取的句子,每个句子包含至少一个实体-关系三元组。它有四种实体(PER、ORG、LOC、OTH)和五种关系(Kill、Work For、Live In、OrgBased In、Located In)。
ACE 05
主动内容提取05 被广泛认可并用于IE使命。它作为一种有价值的资源,用于评估主动化系统在从各种文本源(包括新闻文章、采访、陈诉等)中提取布局化信息方面的功效。别的,该数据集涵盖了广泛的流派,包括政治、经济、体育等。特别是对于ACE 05中的EE使命,它包含599个新闻文档,这些文档封装了33个差别的事件类型和22个参数脚色。
8.2性能指标评测
如表7所示,我们编制了一个涵盖各个领域和使命的基准测试的综合集合,为研究人员提供了一个有价值的资源,他们可以根据需要查询和参考。别的,我们还总结了我们的开源存储库(LLM4IE存储库)中每个数据集的下载链接。
表7 信息提取常用数据集统计
* 表示数据集是多模态的。#是指类别或句子的数量。表中的数据部门引用自InstructUIE
https://i-blog.csdnimg.cn/direct/b9fd9a5c834f4aa6b743fb6c4a51c08b.pnghttps://i-blog.csdnimg.cn/direct/b8dad29f83304104a48e9dae08022920.png
8.3骨干
我们扼要先容了一些在生成式信息抽取领域中常用的主干,如表8所示
表8 生成式信息提取的公共主干
我们标记了常用的基本版本和大版本,以便更好地参考。
https://i-blog.csdnimg.cn/direct/dec04dd69ab3409a8138c013e648ce4e.png
九、结论
在本次调查中,我们起首先容了IE的子使命,并讨论了一些通用的框架,目标是使用LLM同一全部IE使命。另外的理论和实验分析为这些方法提供了有看法的探索。然后,我们深入研究了将LLM应用于IE的差别IE技能,并展示了它们在特定领域提取信息的潜力。最后,我们分析了当前的挑战,并提出了潜伏的将来方向。我们希望这项调查可以为研究人员提供一个有价值的资源,以探索更有效地使用LLM 来办理 IE。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]