我们举行了消融,以检察零样本评估中几个组件的贡献。我们分析了的不同正则化技能。别的,我们将基线表示为“w/o all”,即删除包括指南在内的全部组件时。除了均匀零样本 F1 之外,我们还提供了 GoLLIE 的单边 p 值。类次序改组、指南释义和类名屏蔽似乎对终极效果没有显着贡献,而类丢失虽然显着,但改进很小。丧失仅根据效果标志举行计算,从本质上限制了模型与准则过度拟合的大概性。相反,代表性解释项向模型发出了更强的信号。我们看到指南中的界说和代表性候选者怎样互补并有助于相互改进。
在本节中,我们的目的是更好地理解通过指南提示LLM的效果。我们专注于不同数据集上的特定标签,效果如下表所示。我们的分析涵盖了 GoLLIE 实体标志的成功和不成功案例。对于后者,我们还旨在确定模型未能精确标志这些实体的原因。详细信息在指南中:MEDIA、VULNERABILITYPATCH、TRAILER 和 TASK 等标签本质上是多义的,因此很难仅根据标签名称来确定适当的分类。因此,由于信息不足,基线很难有用地对这些标签下的项目举行分类。相反,GoLLIE 成功地遵循了这些指南,夸大了它们的实用性。当解释不符合准则时:对于 MultiNERD 数据集的 TIME 标签,我们发现我们的模型将年份标志为 TIME 实体。根据解释指南,这是精确的。令人惊讶的是,年份没有被标志为数据会合的实体。在这种情况下,GoLLIE 成功地遵循了指南;不幸的是,数据集解释没有。