GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTIO

农妇山泉一亩田 · 2024-8-18 15:19:07

题目

Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目

论文地址：https://arxiv.org/abs/2310.03668
择要

大型语言模型 (LLM) 与指令调优相联合，在泛化到未见过的任务时取得了巨大进展。然而，它们在信息提取（IE）方面不太成功，落伍于特定任务模型。通常，IE 任务的特点是复杂的解释指南，这些指南描述任务并向人类提供示例。以前利用此类信息的尝试都失败了，即使是最大的模型也是如此，因为它们无法遵循开箱即用的指南。在本文中，我们提出了 GoLLIE（IE 大型语言模型指南），该模型能够通过微调以符合解释指南，从而改进未见过的 IE 任务的零样本效果。综合评估履历表明，GoLLIE 能够泛化并遵循看不见的准则，优于之前零样本信息提取的尝试。消融研究表明，详细的指导方针是获得精良效果的关键。代码、数据和模型将公开。
弁言

信息提取（IE）的任务非常具有挑衅性。这一挑衅在详细的指南中显而易见，此中包含精细的界说和大量的破例情况，人类解释者必须遵循这些指南来执行任务。当前 SoTA 模型的性能在很大程度上取决于人工解释数据的数目，因为该模型从这些示例中学习指导。然而，在新的解释模式中举行测试时，这种性能会显着降落。在 IE 中获得精良效果的常见做法是从头开始在每个新域和模式中手动解释，因为险些不存在跨应用步伐域的传输。不幸的是，这在财政成本和人力方面都是不可行的。
大型语言模型 (LLM)的最新进展使得能够泛化到未见过的任务的模型的开发成为大概。因此，当前的零样本 IE 体系利用LLM中编码的知识来解释新示例。作为预训练过程的副产品，模型现在可以强有力地代表个人或组织。因此，可以提示他们从文本中提取对这些种别的提及。然而，这有一个明显的限制：并非每个解释模式*都以相同的方式界说“人”（或任何其他标签）。例如，ACE 将代词解释为人称，而 CoNLL 则否则。IE 任务必要的信息不光仅是标签名称，它们还必要解释指南。
现在的LLM已经担当过遵循说明的培训，但他们未能遵循开箱即用的解释指南。例如，下图显示了特定范畴的零样本命名实体识别的效果。当提示指导方针时，gpt-3.5-turbo 的效果很低，在音乐或政治范畴的 F1 分数约为 20。构建一个能够实现高性能零样本信息提取的体系，减少对昂贵的人工解释的依靠，仍然是一个开放的挑衅。在这项工作中，我们提出了 GoLLIE（遵循指南的 IE 大型语言模型），这是一个经过微调的LLM，旨在学习怎样遵守一小部分众所周知的 IE 任务的指南。综合零样本评估履历表明，GoLLIE 在零样本信息提取方面优于 SoTA。

大型语言模型 (LLM) 在开发可泛化到未见过的任务的体系方面取得了巨大进展。使用大量互联网数据训练了LLM，发现给定自然语言任务描述的预训练模型可以在没有明确监督的情况下执行问答、机器翻译或总结等任务。基于这一发现，指令调优（通常称为多任务微调）已成为实现未知任务泛化的重要方法。此过程涉及在大量未标志数据上预训练模型，然后针对各种任务聚集对其举行微调，这些任务被表述为文本到文本题目。向模型提供自然语言指令或提示，以识别其应解决的任务。研究已经证明，增长语言模型的参数数目，再加上指令调优数据集的巨细和质量的改进，可以增强泛化能力。LLM在各种具有挑衅性的任务中体现出了令人印象深刻的零样本泛化能力，包括编码、知识推理和医学应用等。
在信息提取（IE）范畴，最近的共享任务表明，XLM-RoBERTa和 mDEBERTA等仅编码器的语言模型仍然存在最有用的模型。利用 LLM 和自然语言指令举行 IE 的尝试不太成功，因为它们的性能落伍于仅编码器模型。在十亿参数 LLM 之前，间接监督方法通过利用从文本蕴涵和问答等任务中学到的知识来改进零样本 IE。提出了一种实体范例方法，该方法使用 LSTM 将维基百科的标签描述编码为嵌入，然后用于对输入举行评分。利用外部知识的方法在细粒度零样本 NER 上也取得了成功。引入了一种统一的文本到结构天生方法，可以对不同的 IE 任务举行通用建模。提出将 IE 任务转换为语义匹配题目，使他们的方法能够推广到新范畴并标志训练期间未见过的本体。将 IE 任务界说为自然语言描述性指令，并在各种 IE 任务中训练了LLM。在对具有看不见的标签本体的任务的评估中，他们的模型优于其他指令调解方法。

大多数针对 IE 的指令调解尝试都有一个限制：它们仅考虑提示中的标签名称（例如，“列出全部职员”）。这带来了两大挑衅。起首，并非全部数据集都对“人”等标签具有相同的界说（有些数据集不包括虚构人物或代词）。其次，标签名称自己不足以描述复杂或不太常见的标签。虽然有人尝试提示LLM使用指南，但LLM有关任务标签的丰富先验知识阻止了模型遵守这些指南。
方法

与以前的方法不同，GoLLIE 逼迫模型关注指南中的细节，在训练期间未见过的模式上体现稳健。在本节中，我们深入探讨我们方法的细节，描述输入和输出的表示方式以及用于逼迫模型遵循准则的正则化技能。我们对模型的输入和输出接纳了基于 Python 代码的表示。这种方法不光提供了清晰且人类可读的结构，而且还解决了通常与自然语言指令相关的几个挑衅。它能够以统一的格式表示任何信息提取任务。输入可以使用 Python 代码格式化步伐（例如 Black）自动标准化。输出结构精良，解析它很简单。别的，当前大多数LLM都在其预训练数据会合包含代码，这表明这些模型已经认识这种表示形式。
上图显示了该格式的三个重要部分：模式界说、输入文本和输出解释。模式界说形成输入的初始段。本节包含有关表示为 Python 类的标签的信息；指导方针，明确表达为文档字符串；以及以代码解释的形式出现的代表性解释候选者。类界说的数目对应于数据会合标签的数目。课程很灵活，而且针对每项任务而有所不同。例如，NER 数据集的类仅必要一个属性来指定与该类相对应的文本范围。另一方面，事件参数提取 (EAE) 或槽位填充 (SF) 等更复杂的任务必要更多类属性来对任务举行分类，例如事件到场者列表（请参阅附录 A 中的示例）。输入文本是输入的第二部分。输入文本在 Python 中表示为字符串变量。输出解释是模型天生的部分。 result=后模型开始天生。解释是表示为模式界说部分上界说的类的实例列表。解析输出很简单；在 Python 中执行天生的代码会天生一个包含效果的列表。这种易于解析输出的方式是我们模型的一个显着优势。附录 E 提供了对该方法服从的进一步详细分析。
指南增强表示这项工作的重要贡献是使用指南作为推理过程的一部分来改进零样本泛化。下图显示了带有和不带有指导方针的类界说示例。不同的数据集通常以多种不同的方式界说指导方针：有些提供标签的复杂界说，但有一些破例和特殊处置处罚，而另一些则仅给出一些有代表性的候选标签。标签的填充物。为了规范化输入格式，我们将标签界说包含为类文档字符串，并将候选者作为重要参数的解释（通常是提及或跨度）。 EAE 或 SF 等复杂任务必要参数或槽的附加界说，为此，我们在每个类参数上添加了一些小界说作为解释。在本文中，我们将没有指南的模型称为 Baseline，将有指南的模型称为 GoLLIE。

训练正则化我们盼望确保模型遵循指导方针，而不光仅是学习识别特定的数据集并在它们上精确执行。为此，我们在训练期间引入各种噪声。这会阻止模型识别特定数据集、回忆特定标签或仅关注标签名称，而不是学习遵循指南中每个标签的实际描述。我们应用了以下正则化。类次序打乱，对于每个示例，输入类的次序被随机打乱。这使得模型更难记住整个任务界说。类丢失，我们随机删除一些输入类。通过从输入和输出中消除少数类，我们迫使模型学习仅输出输入中界说的类的实例。这不光鼓励模型专注于模式界说，而且还最大限度地减少了推理过程中出现幻觉的情况。指南释义，我们天生标签界说的变体，以防止模型轻松记住它们。我们还以为这将使该方法对于界说的不同变化更加稳健。代表性候选者抽样，与我们对释义所做的类似，对于每个输入，我们从每类 10 个固定池中抽样 5 个不同的候选者。类名称屏蔽涉及用占位符（例如 LABEL 1）替换标签类名称（例如 PERSON）。这可以防止模型在训练期间利用标签名称，并逼迫其到场并理解指南。

实行

评估零样本能力必要将数据分为训练数据集和评估数据集。然而，许多信息提取基准都基于相同的域或共享其模式的一部分。为了确保零样本评估不受类似数据的影响，我们根据数据域分别了一组基准。对于训练，我们重要保存来自消息和生物医学范畴的数据集，而对于评估，我们使用来自不同范畴的数据集。这种方法有助于避免在评估过程中引入任何噪音。在评估数据会合，我们包括 CrossNER，这是一个分为多个范畴的数据集，为了简单起见，我们将每个范畴称为一个单独的数据集：人工智能、文学、音乐、政治和科学。别的，我们将 MIT Movie 和 MIT Restaurant 称为电影和餐厅。表 1 包含有关实行中使用的数据的信息。
我们训练模型执行 5 种不同的任务：命名实体识别 (NER)、关系提取 (RE)、事件提取 (EE)、事件参数提取 (EAE) 和槽位填充 (SF)。然而，我们仅在感兴趣的三个重要任务上评估了模型：NER、EE 和 EAE。别的两个任务被添加到训练数据中，以增长多样性并进步模型的灵活性。为了进步模型的质量，对两个数据集举行了少量修改。起首，Ontonotes 5 的训练数据由于自动标注而大幅减少。其次，TACRED 数据集从 RE 转换为 SF，以增长任务的复杂性。这些修改使我们的体系无法与这些任务的现有技能相媲美。然而，我们感兴趣的焦点是零样本评估，因此，其利益比在监督设置上添加 2 个可比点更有趣。在 CASIE 数据会合，我们检测到解释的事件跨度不同等。模型通常解释子字符串而不是整个范围。因此，我们根据推测的事件种别评估全部模型，而不考虑确切的文本跨度。对于参数，我们使用部分匹配。
我们使用每个数据集作者发布的指南。当此类指南未公开时，我们会要求人类专家根据开发分会的解释来创建它们。当可用时，从指南中提代替表性候选者，否则，根据词频从列车分割中采样候选者或根据指南手动策划候选者。使用 Vicuna 33B v1.3 自动天生释义。

语言模型和基线主干LLM：GoLLIE 是的微调版本。 ` 然而，在开发过程中考虑了其他骨干 LLM，例如 LLaMA、LLaMA-2，因为我们的方法使用代码来表示输入和输出，Code-LLaMA 模型在初步实行中效果更好。为了举行公平比力，本文开发的基线也基于 Code-LLaMA。本文的全部开发都是使用 Code-LLama 的 7B 参数版本完成的，但是，为了举行缩放分析，我们还训练了 13B 和 34B 参数模型。训练设置：为了训练模型，我们使用 QLoRA。 LoRA 冻结预先训练的模型权重，并将可训练的秩分解矩阵注入到 Transformer 架构的线性层中。在初步实行中，该设置在零样本任务上优于微调解个模型，同时训练速度更快。我们按照 Dettmers 等人的建议将 LoRA 应用于全部线性变压器块层。使用余弦调度器对模型举行 3 个 epoch 的训练，有用批量巨细为 32，学习率为 3e-4。我们的训练底子设施是 2 台 NVIDIA A100，每台 80GB。
可比体系：我们的重要比力点是 Instruct-UIE，因为它是最接近我们体系的方法，但不使用指南。考虑举行比力的另一个体系是 PromptNER，它建议使用 Chain-of-Though 来提示 GPT-3.5 和 T5 的界说，以执行少样本 NER。与我们不同的是，他们没有对模型举行微调以遵守指南。为了公平比力，我们只考虑了论文中报告的零样本效果。别的，当 Instruct-UIE 和 PromptNER 的效果不可用时，还会添加其他 SoTA 体系举行比力。鉴于我们的体系是为零样本场景设计的，监督实行旨在验证我们的体系不会降低其性能。因此，对于监督场景，我们选择了 SoTA 中与我们最具有可比性的设置的体系。
监督数据集上的效果下如表所示。将 GoLLIE 与基线举行比力，它们都获得非常相似的效果，均匀绝对差别为 0.3 个 F1 点。这是预期的，因为基线模型隐式地学习了在微调期间根据数据分布解释数据集的指南。别的，尽管 GoLLIE 微调中引入了噪声以便根据准则举行概括，但性能仍接近基线。与其他体系相比，我们的模型总体上取得了相似的效果。关注我们的模型体现明显不佳的两个数据集 WNUT 和 NCBIDisease，我们发现该任务仍必要具体技能。例如，使用外部知识来检测新兴和稀有实体。在 NCBIDisisease 数据会合，在生物医学范畴语料库上预训练的模型取得了最佳效果。利用 Flan-T5，它在生物医学范畴任务上非常纯熟。然而，这些改进是对我们的建议的补充。

零样本评估，零样本的效果如下表所示。总体而言，与基线相比，在险些每个数据集上使用指南时，效果都有显着改善，均匀绝对差别为 13 个 F1 点。尽管根据范畴分别评估基准，但训练标签和评估基准之间总是存在一些重叠。例如，数据集 E3C 和 WikiEvents 与 BC5CDR、ACE05 和 RAMS 等数据集共享其模式的很大一部分。这种征象反映在效果中。GoLLIE 大幅逾越了当前的 zeri-shot SoTA 方法 Instruct-UIE和基于 Entailment 的 IE。与 Instruct-UIE 相比，重要区别在于骨干模型、训练数据量以及指南的使用与否。Instruct-UIE 利用 11B FlanT5，它是在 473 个 NLP 数据集上微调的 T5。在数据方面，Instruct-UIE总共利用了来自不同范畴的34个IE数据集（将不同的任务计为数据集），我们只利用了12个数据集。与我们的方法相反，他们不使用指南信息。尽管如此，我们的方法体现明显更好，表明指南对效果有重要影响。
PromptNER还在提示中添加了一些界说信息，以便执行零样本 NER。我们将我们的方法与图中的他们（表示为 GPT-3.5）举行比力。尽管他们的方法也利用了指南，但我们的方法在全部数据集上的体现明显更好，这表明LLM（即使使用 175B 参数）很难遵循指南。他们通过在上下文中添加示例来解决这个题目，但在可比力的设置（T5-XXL）上仍然远远落伍。
模型扩展：最近的研究表明，增长语言模型的参数数目可以进步泛化能力。更高的参数数目可带来卓越的均匀零样天性能。然而，一些数据集和任务可以从更大的LLM中受益匪浅，而另一些则否则。我们以为，某些数据集并没有看到增长 LLM 规模的利益，因为它们的性能受到我们在第 5.3 节中讨论的指南题目的拦阻。虽然一样平常来说，较大的模型在监督和零样本设置中都能取得更好的效果，但具有 7B 参数主干的 GoLLIE 已经体现出强大的零样本能力。
可见标签与不可见标签：零样本数据会合并非全部标签都是不可见的；训练数据集和零样本数据会合的标签之间存在重叠。尽管这些标签大概有非常不同的解释准则，但我们也会报告训练期间未打仗到的标签集的效果，以更好地了解 GoLLIE 的泛化能力。下图汇总了零样本场景中已见和未见标签的跨数据集的 F1 分数。全部模型在看不见的标签上体现出稍低的性能。对于基线模型，性能降落更为明显。相比之下，GoLLIE 体现出更好的泛化能力，显示出可见标签和未瞥见标签之间的 F1 分数差距较小。别的，随着模型参数数目的增长，差距会更小。

消融研究

我们举行了消融，以检察零样本评估中几个组件的贡献。我们分析了的不同正则化技能。别的，我们将基线表示为“w/o all”，即删除包括指南在内的全部组件时。除了均匀零样本 F1 之外，我们还提供了 GoLLIE 的单边 p 值。类次序改组、指南释义和类名屏蔽似乎对终极效果没有显着贡献，而类丢失虽然显着，但改进很小。丧失仅根据效果标志举行计算，从本质上限制了模型与准则过度拟合的大概性。相反，代表性解释项向模型发出了更强的信号。我们看到指南中的界说和代表性候选者怎样互补并有助于相互改进。

在本节中，我们的目的是更好地理解通过指南提示LLM的效果。我们专注于不同数据集上的特定标签，效果如下表所示。我们的分析涵盖了 GoLLIE 实体标志的成功和不成功案例。对于后者，我们还旨在确定模型未能精确标志这些实体的原因。详细信息在指南中：MEDIA、VULNERABILITYPATCH、TRAILER 和 TASK 等标签本质上是多义的，因此很难仅根据标签名称来确定适当的分类。因此，由于信息不足，基线很难有用地对这些标签下的项目举行分类。相反，GoLLIE 成功地遵循了这些指南，夸大了它们的实用性。当解释不符合准则时：对于 MultiNERD 数据集的 TIME 标签，我们发现我们的模型将年份标志为 TIME 实体。根据解释指南，这是精确的。令人惊讶的是，年份没有被标志为数据会合的实体。在这种情况下，GoLLIE 成功地遵循了指南；不幸的是，数据集解释没有。

不明确的标签：CoNLL03 和 CrossNER 数据集使用的杂项种别是指未包含在数据集设置的预界说种别中的任何命名实体。这个界说非常模糊，而且是对不适合任何范例的各种元素的包罗万象。预界说种别。类似地，电影数据集的 PLOT 种别用于标志各种元素。例如，电影中的事件（例如行刺、赛马）、脚色（例如吸血鬼、僵尸）和原籍国（例如英国）等。这种缺乏特异性拦阻了标志此类元素的同等规则或指南的制定，这对人类和机器来说都是一个题目。因此，GoLLIE 也无法准确地标志它们。
细粒度实体和粗实体之间的辩说：CrossNER 数据集为每个域中的人名引入了两个标签。例如，在科学范畴中，使用标签“SCIENTIST”和“PERSON”。前者用于标志任何不是科学家的人。类似地，文学域包括标签“WRITER”和“PERSON”。该指南帮助 GoLLIE 将实体精确标志为 WRITER。然而，尽管有指导方针，GoLLIE 仍然将个人归类为“人”，即使他们是科学家。从技能上讲，这并不是不精确的，因为根据界说，每个科学家也是一个人。
强烈的标签先入之见：在其政治范畴会合，CrossNER 包含“政治政党”标签。 GoLLIE 的体现优于基线，再次证明了为模型提供指导的实用性。然而，我们经常发现该模型将政党归类为组织。如表 1 所列，大多数预训练数据集源自消息范畴，此中政党是一个常见实体。然而，没有一个微调数据集包含 POLITICAL PARTY 实体；相反，它们被归类为组织。因此，在推理过程中，该模型始终将政党标志为组织。我们相信这个题目可以通过扩大微调数据集的数目和多样性来解决。
总之，我们预计 GoLLIE 将在具有明确界说和明确界限的指导方针的标签上体现精良。另一方面，模糊的标签或非常粗糙的标签带来了挑衅。在这方面，相信 GoLLIE 会受益于学习遵循“始终标志最具体的类”或“在没有其他特定类的情况下解释此类”等指令。我们还预计 GoLLIE 将从扩大预训练数据集的数目和多样性中受益。
在本文中，我们介绍了 GoLLIE，这是一种经过专门微调以符合解释指南的LLM，该指南旨在帮助人类解释数据集。全面的零样本评估从履历上证明，解释指南对于LLM来说非常有代价，因为 GoLLIE 成功地利用了它们。与之前的零样本 IE 尝试相比，GoLLIE 实现了更好的零样本效果，后者倒霉用指南，或使用未针对遵循指南举行微调的模型。GoLLIE 是模型开发方面的巨大进步，可以泛化到未见过的 IE 任务。将来，我们计划通过使用更大、更多样化的预训练数据集来增强 GoLLIE。我们还将通过扩展模型可以遵循的指令集来进步模型在模糊和粗糙标签上的性能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTIO

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云