怀念夏天 发表于 2024-12-25 10:29:54

2024.2 ACM Explainability for Large Language Models: A Survey

Explainability for Large Language Models: A Survey | ACM Transactions on Intelligent Systems and Technology

题目


[*]可表明性题目:大语言模型(LLMs)内部机制不透明,难以理解其决策过程,如在天然语言处置惩罚任务中,不清楚模型如何根据输入天生特定的猜测效果。
[*]模型评估题目:缺乏有用的评估指标和方法来衡量表明的质量,包罗表明的合理性和老实性,难以确定表明是否正确反映了模型的推理过程。
[*]模型训练题目:在传统微调范式中,不清楚预训练和微调过程如何使模型具备解决下游任务的本领;在提树模式中,不了解模型如何通过提示举行学习和推理,以及如何减少模型在训练过程中的捷径学习行为。
[*]模型应用题目:在现实应用中,如医疗、金融等范畴,如何确保模型的表明能够被用户理解和信任,以及如何利用表明提高模型在这些范畴的性能和可靠性。
挑战


[*]缺乏真实表明:LLMs 的全局表明缺乏基准数据集和真实表明,导致难以设计正确的表明算法,评估表明的老实性和可靠性,以及在多种表明方法中选择符合的表明。
【这是数据集的缺陷】

[*]新兴本领泉源不明:随着模型规模和训练数据的增长,LLMs 展现出的新兴本领(如少样本学习、头脑链提示等)的泉源难以表明,特别是对于专有模型,其架构和训练数据未公开,增长了研究难度。
[*]两种范式对比困难:下游微调范式和提树模式在分布内和分布外性能上存在差异,表明其推理方式不同,但现在缺乏对这两种范式表明的全面比较,难以理解它们在猜测时的推理差异及其对模型性能的影响。
[*]捷径学习题目:LLMs 在两种训练范式下都倾向于利用捷径举行猜测,影响了模型的泛化本领,尤其是在处置惩罚分布外数据时,需要深入研究如何解决这一题目,提高模型的泛化性能。
[*]注意力冗余征象:研究发现 LLMs 在不同阶段(如预训练和微调)以及不同场景(如上下文学习)中存在注意力冗余,这为模型压缩提供了机会,但同时也需要深入理解其对模型性能的影响。
[*]训练动态研究不敷:当前的表明性研究重要集中在对训练完成后的模型举行过后表明,缺乏对训练过程的动态分析,轻易导致表明偏差,无法正确捕获模型的新兴本领和训练依赖的关键部分。
[*]安全与伦理风险:LLMs 的不可表明性带来了安全和伦理题目,如大概产生错误信息、偏见和社会操纵等,难以对这些风险举行分析和束缚,确保模型与人类价值观划一。
创新点


[*]系统性分类:首次对大语言模型的表明性技能举行了全面、系统的分类,涵盖了传统微调范式和提树模式下的各种表明方法,为后续研究提供了清楚的框架。
[*]多维度评估:提出了针对表明的多维度评估指标,包罗合理性和老实性评估,不但关注表明在语法、语义等方面的合理性,还从模型原理层面探究了表明的老实性,为更正确地评估表明质量提供了依据。
[*]结合新兴本领:在提树模式的表明中,紧密结合了 LLMs 的新兴本领,如上下文学习、头脑链提示等,从这些独特本领的角度探索表明方法,为理解和表明 LLMs 的复杂行为提供了新的视角。
[*]强调应用价值:突出了可表明性在模型调试、改进以及下游应用(如医疗、教育等范畴)中的作用,展示了可表明性研究在现实应用中的潜力,推动了该范畴从理论研究向现实应用的发展。
贡献


[*]全面综述:对 LLMs 的表明性技能举行了全面综述,总结了不同训练范式下的表明方法,包罗局部表明、全局表明及其详细技能,如特征归因、注意力机制、探测技能等,为研究人员提供了该范畴的整体视图。
[*]方法整合:整合了利用表明来调试和改进模型的方法,如通过表明发现模型的偏差和范围性,进而利用正则化技能提高模型性能,为模型开辟人员提供了实践引导。
[*]评估体系构建:构建了对表明的评估体系,包罗传统微调范式和提树模式下的评估指标,讨论了评估中的关键题目,如评估指标的划一性和实用性,为评估表明质量提供了方法和思路。
[*]挑战与未来方向明白:明白了当前 LLMs 表明性研究面对的挑战,如缺乏真实表明、新兴本领泉源不明等,并提出了未来的研究方向,为后续研究提供了参考和方向。
提出的方法


[*]传统微调范式下的表明方法

[*]局部表明

[*]特征归因表明:包罗扰动法(如 leave - one - out 计谋)、梯度法(如原始梯度、集成梯度等)、代理模型(如 LIME、SHAP)和分解法(如 LRP、DTD),用于衡量输入特征对模型猜测的贡献。
[*]注意力机制表明:通过可视化(如 bipartite graph 和 heatmap)、基于函数的方法(结合梯度与注意力权重)和探测技能,尝试表明模型猜测与注意力机制的关系。
[*]示例表明:包含对抗样本(如 TextFooler 通过操纵输入数据天生)、反事实表明(如 Polyjuice 通过扰动输入天生)和数据影响(如 influence functions、Data Shapley 等方法),从实例角度分析模型行为。
[*]天然语言表明:训练语言模型利用原始文本和人类注释表明来天生天然语言表明,但可靠性需进一步研究。

[*]全局表明

[*]探测技能:包罗基于分类器的探测(训练浅层分类器在预训练或微调模型上辨认语言属性)和无参数探测(设计特定数据集评估模型本领),用于分析模型获取的知识。
[*]神经元激活分析:通过辨认重要神经元(如无监督或有监督方式)并研究其与语言属性关系,以及利用贪婪高斯探测等技能,表明模型性能与神经元的关联。
[*]概念表明:如 TCAV 框架通过将输入映射到概念并盘算概念重要性分数,以更抽象的概念表明模型猜测。
[*]机制可表明性:从电路角度研究模型,包罗分析神经网络隐藏表现和连接权重,探索模型组件的功能和关系,但在 LLMs 中的应用仍需深入研究。


[*]提树模式下的表明方法

[*]基础模型表明

[*]表明上下文学习:通过分析对比演示和显著性地图等方法,研究模型在上下文学习中的行为,如探索模型如何从少量示例中学习新任务。
[*]表明头脑链提示:利用梯度 - 基于特征归因方法盘算输入标志的显著性分数,分析头脑链提示对模型行为的影响,理解其如何提高模型性能。
[*]表现工程:从表现工程角度,通过辨认和控制网络中的高级概念和功能表现,以及操纵表现来满足安全要求,表明模型行为,但仍需更多研究验证其有用性。

[*]助手模型表明

[*]表明微调作用:通过实验研究预训练和指令微调对模型知识获取和性能的影响,如分析模型在不同阶段对知识的把握和应用本领。
[*]表明幻觉征象:从数据集题目(如缺乏相干数据、重复数据)和模型范围性(如依赖记忆和统计模式、逻辑推理缺陷等)两方面分析幻觉产生的原因,并提出相应解决方法。
[*]不确定性量化:接纳划一性 - 基于估计(如引入随机 ness 或误导 hints 天生多个相应)、语言模型口头表达(直接分析信心程度)和令牌级不确定性聚合(从令牌猜测盘算总体不确定性)等方法量化模型猜测的不确定性。


[*]利用表明改进模型和应用的方法

[*]改进语言模型:如头脑链提示(在答案前提供中心推理步骤)、表明调优(利用更高级模型的详细表明训练小模型)、压缩指令(通过分析任务定义中的关键内容去除不必要信息)等方法,提高模型在少样本学习等任务中的性能。
[*]下游应用:在医疗范畴,提出利用视觉 - 语言模型(如 CLIP)和 LLMs(如 ChatGPT)实现可表明的零样本医疗图像诊断,通过 ChatGPT 天生疾病症状和视觉特征的文本描述,辅助 CLIP 举行更正确的诊断。

指标



[*]合理性评估指标(实用于传统微调范式的局部表明)

[*]语法、语义、知识、推理和盘算维度评估:从这些维度描述掩码输入与人类注释理由的关系,衡量表明在不同层面的合理性。
[*]基于 token - 级和整体的指标:如 Intersection - Over - Union(IOU)、precision、recall 用于衡量两个 token - 级理由的匹配程度;F1 score(离散环境)和 area under the precision recall curve(AUPRC,连续或软 token 选择环境)用于评估整体合理性。

[*]老实性评估指标(实用于传统微调范式的表明)

[*]模型级原则:包罗 implementation invariance(模型架构变革时归因分数应稳定)、input invariance(有用输入变革时归因方法应反映猜测模型的敏感性)、input sensitivity(表明猜测差异的特征归因分数应为非零)、completeness(结合敏感性和路径积分)、polarity consistency(制止高排名特征对最终猜测的克制影响)、prediction consistency(雷同表明的实例应具有雷同猜测)和 sufficiency(具有雷同归因的数据应具有雷同相干标签)。
[*]基于测试集的指标:如 comprehensiveness(移除重要 token 前后原始猜测种别的概率变革)、sufficiency(提取的理由部分使模型做出猜测的程度)、Decision Flip - Fraction Of Tokens(触发决策翻转所需移除的均匀 token 比例)、Decision Flip - Most Informative Token(移除最有影响力的 token 导致决策翻转的比率)。

[*]提树模式表明的评估指标

[*]合理性评估:通过评估表明的反事实模仿本领,包罗 simulation generality(表明帮助模仿的反事实的多样性)和 simulation precision(模仿的反事实中人类猜测与模型输出匹配的比例),衡量表明是否满足人类期望。
[*]老实性评估:通过实验分析头脑链表明在不同任务中的老实性,如查抄模型是否能正确反映特征重要性和特征极性,以及通过分解题目等方法提高表明的老实性。

模型结构(文中未详细提及特定的新模型结构,重要是对现有大语言模型在不同训练范式下的行为和表明方法举行研究)



[*]传统微调范式模型:通常先在大规模无标签文本上举行预训练,学习语言的一般表现,然后在特定下游任务的有标签数据上举行微调,通过添加全连接层等方式适应不同任务。比方 BERT、RoBERTa 等模型,其结构重要基于 Transformer 架构,包含多层的编码器,通过自注意力机制对输入文本举行编码息争码,在预训练和微调过程中调整模型参数以适应不同任务需求。
[*]提树模式模型

[*]基础模型:如 GPT - 3、LLaMA 等,规模巨大(通常数十亿或更多参数),通过在大规模文本上预训练得到强大的语言理解和天生本领,能够基于提示举行少样本学习,模型结构重要基于 Transformer 解码器,通过自注意力机制处置惩罚输入文本并天生相应的输出。
[*]助手模型:如 GPT - 3.5、LLaMA - 2 - Chat 等,在基础模型的基础上,颠末监督微调(如通过指令调整和强化学习从人类反馈中学习),使其能够更好地遵循用户指令,与人类偏好对齐,具备更强的推理和对话本领,模型结构在基础模型的 Transformer 架构基础上,进一步优化和调整以适应特定的任务和交互需求。

结论



[*]研究效果总结:对大语言模型的表明性技能举行了全面综述,包罗不同训练范式下的表明方法、表明的评估、利用表明改进模型以及应用等方面的研究效果。总结了各种表明方法的特点、上风和范围性,以及在模型调试、改进和现实应用中的作用。
[*]强调重要性:强调了可表明性在确保大语言模型透明、公平和有益方面的关键作用,随着模型的不断发展,可表明性将成为理解和信任模型的重要保障,有助于提高模型在现实应用中的可靠性和安全性。
[*]研究范畴现状:指出当前研究在表明性技能方面取得了一定希望,但仍面对诸多挑战,如缺乏真实表明、新兴本领泉源不明白、两种范式对比研究不敷等,这些挑战限制了对大语言模型的深入理解和有用应用。
[*]对未来研究的猜测:盼望本综述能为该范畴的研究提供有用的构造框架,突出未来的研究方向,如开辟针对不同模型的表明方法、改进表明的评估指标、提高人类对表明的理解本领等,以推动大语言模型表明性研究的进一步发展。
剩余挑战和未来工作


[*]表明缺乏真实基准:缺乏用于评估 LLMs 全局表明的基准数据集和真实表明,未来需要创建或获取更可靠的评估资源,以设计更正确的表明算法和评估指标,确保表明的有用性和可靠性。
[*]新兴本领机制探究:深入研究 LLMs 新兴本领(如上下文学习、头脑链提示等)的泉源和机制,从模型架构、训练数据和算法等多方面举行分析,以更好地理解和控制这些本领,提高模型的性能和可表明性。
[*]范式比较与融合:进一步比较下游微调范式和提树模式在表明和推理方面的差异,探索如何融合两种范式的上风,提高模型在不同任务和场景下的适应性和鲁棒性,同时为模型选择符合的训练和应用范式提供引导。
[*]解决捷径学习题目:针对 LLMs 在不同训练范式下的捷径学习行为,研究有用的干预步伐,改进模型训练算法,使其能够更全面、深入地学习数据中的模式和关系,减少对特定数据集特征的依赖,加强模型的泛化本领。
[*]注意力机制优化:基于对注意力冗余的研究,进一步优化注意力机制,开辟更有用的注意力分配计谋,在减少冗余的同时提高模型对关键信息的关注和利用本领,从而提拔模型性能并加强表明性。
[*]动态分析训练过程:加强对 LLMs 训练过程的动态分析,创建能够跟踪模型训练动态的方法和工具,研究模型在训练过程中的参数变革、表现学习和本领发展,以揭示训练过程中的因果关系和关键阶段,为模型优化和表明提供更深入的依据。
[*]确保安全与伦理合规:在 LLMs 的发展过程中,更加注重安全与伦理题目,开辟有用的可表明性工具和方法,用于审计模型的潜在风险,如偏见、错误信息流传等,确保模型的行为符合人类价值观和社会规范,促进 LLMs 的安全、可靠和有益应用。
数据集(文中提及了一些用于研究的数据集,但未详细介绍其构建和利用方法)


[*]用于评估表明合理性的数据集:通常包含带有人类注释理由的文本数据,这些数据在语法、语义、知识、推理和盘算等维度上满足一定尺度,如句子中包含需要表明的部分(如掩码)和对应的人类注释理由,用于衡量表明模型天生的表明与人类理解的匹配程度。
[*]用于训练和评估模型的数据集

[*]传统微调范式:如 GLUE 基准中的 SST - 2、MNLI、QQP 等数据集,用于在特定下游任务上对模型举行微调训练和性能评估,这些数据集包含有标签的数据,涵盖了不同类型的天然语言处置惩罚任务,如情感分析、天然语言推理等。
[*]提树模式:文中未提及专门用于提树模式模型训练和评估的特定数据集,但在研究上下文学习、头脑链提示等本领时,大概利用了各种范畴和类型的文本数据作为示例或测试数据,以探索模型在不同场景下的表现和表明方法的有用性。


原文
抽象
大型语言模型 (LLM) 在天然语言处置惩罚方面表现出了令人印象深刻的功能。然而,它们的内部机制仍不清楚,这种缺乏透明度会给下游应用带来不必要的风险。因此,理解和表明这些模型对于分析它们的行为、范围性和社会影响至关重要。在本文中,我们介绍了可表明性技能的分类法,并提供了表明基于 Transformer 的语言模型的方法的结构化概述。我们根据 LLM 的训练范式对技能举行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了天生单个猜测的局部表明和整体模型知识的全局表明的目标和重要方法。我们还讨论了用于评估天生的表明的指标,并讨论了如何利用表明来调试模型和提高性能。末了,我们研究了与传统深度学习模型相比,LLM 时代表明技能的重要挑战和新兴机会。
1 引言
大型语言模型 (LLM),如 BERT(Devlin 等人,2019a)、GPT-3(Brown 等人,2020 年)、GPT4(OpenAI,2023b)、LLaMA-2(Touvron 等人,2023b)和 Claude(AnthropicAI,2023 年),在广泛的天然语言处置惩罚 (NLP) 任务中表现出令人印象深刻的表现。Microsoft、Google 和百度等重要技能公司已在其贸易产品和服务中部署了 LLM 以加强功能。比方,Microsoft 利用 GPT-3.5 来提高新 Bing 中的搜索相干性排名(Mehdi,2023 年)。由于 LLM 是众所周知的复杂的 “黑盒” 系统,因此其内部工作机制是不透明的,而且高度复杂性使模型表明极具挑战性。在某些环境下,这种缺乏模型透明度会导致有害内容或幻觉的产生(Weidinger et al., 2021)。因此,开辟可表明性以分析这些强大的模型是如何工作的至关重要。
可表明性 1 是指以人类可理解的术语表明或呈现模型行为的本领(Doshi-Velez & Kim,2017;Du et al., 2019a)。提高 LLM 的可表明性至关重要,重要有两个原因。起首,对于一般最终用户,可表明性通过分析推理模型猜测背后的机制来创建得当的信任,无需技能专业知识。如许,最终用户就能够了解 LLM 的功能、限制和潜在缺陷。
        其次,对于研究人员和开辟人员来说,表明模型行为可以深入了解,以辨认不测的偏差、风险和需要改进性能的范畴。换句话说,可表明性充当调试辅助工具,以快速提高下游任务的模型性能(Strobelt et al., 2018;Bastings 等人,2022 年;Yuksekgonul et al., 2023)。它有助于跟踪模型功能随时间的变革,在不同模型之间举行比较,并为现实部署开辟可靠、合乎道德且安全的模型。
与传统的深度学习模型相比,LLM 在参数和训练数据方面的规模为可表明性研究带来了复杂的挑战和令人兴奋的机会。起首,随着模型变得更大,由于内部复杂性的增长和训练数据的庞大,理解和表明其决策过程变得更加困难。这种复杂性还需要大量的盘算资源来天生表明。一方面,传统上实用的特征归因技能,如基于梯度的方法(Sundararajan 等人,2017)和 SHAP 值(Lundberg & Lee,2017a),大概需要大量的盘算本领来表明具有数十亿个参数的 LLM。这使得这些表明技能对于最终用户可以利用的现实应用步伐不太实用。另一方面,这种增长的复杂性使深入分析具有挑战性,拦阻了模型的调试和诊断。别的,理解 LLM 在情境学习(Li et al., 2023b)和头脑链提示(Wu et al., 2023a)以及幻觉征象方面的独特本领,对于表明和改进模型是必不可少的。其次,这种缩放还刺激了可表明性技能的创新,并为模型行为提供了更丰富的看法。比方,LLM 可以为他们自己的决策过程提供思路链表明。别的,近来的研究发现 LLM 可以作为工具,为其他机器学习的猜测提供过后表明(Kroeger 等人,2023 年)。为了更好地理解和加强 LLM,必须审查可用的可表明性技能并加深对潜在未来方向的理解。
在本文中,我们全面概述了表明基于 Transformer 的语言模型的方法。在第 2 节中,我们介绍了应用 LLM 的两个重要范式:1) 传统的下游微调范式和 2) 提树模式。基于这种分类,我们在第 3 节中回顾了微调 LLM 的可表明性方法,并在第 4 节中提示了 LLM。在第 5 节中,我们讨论了可表明性方法的评估。末了,在第 6 节中,我们进一步讨论了与传统深度学习模型相比,表明 LLM 的研究挑战,并提供了对未来潜在研究方向的看法。本文旨在全面梳理近年来复杂语言模型表明的研究希望。
2 LLM 的训练范式
LLM 的训练大致可以分为两种范式,传统的微调和提示,详细取决于它们如何用于适应下游任务。由于这两种范式之间存在实质性差异,因此分别提出了各种类型的表明(如图 1 所示)。
2.1 传统的微调范式
在这个范式中,语言模型起首在大量未标志的文本数据语料库上举行预训练,然后对来自特定下游范畴的一组标志数据举行微调,比方 GLUE 基准上的 SST-2、MNLI 和 QQP(Wang et al., 2019)。在微调过程中,很轻易在语言模型的最终编码器层上方添加全连接层,使其能够适应各种下游任务(Rogers et al., 2021)。这种范例已被证明实用于中型语言模型,通常包含多达 10 亿个参数。例子包罗 BERT (Devlin et al., 2019a)、RoBERTa (Liu et al., 2019)、ELECTRA (Clark et al., 2020)、DeBERTa (He et al., 2021) 等。对这种范式的表明集中在两个关键范畴:1) 了解自我监督的预训练如何使模型得到对语言的基本理解(比方,句法、语义和上下文关系);2) 分析微调过程如何使这些预训练模型具备有用解决下游任务的本领。
2.2 提示 Paradigm
提树模例涉及利用提示(比方带有空格的天然语言句子供模型填充)来实现零样本或少数样本学习,而无需额外的训练数据。这种范式下的模型根据其开辟阶段可以分为两种类型:
基本模型:随着 LLM 的大小和训练数据的扩展,它们会表现出令人印象深刻的新功能,而无需额外的训练数据。其中一种功能是通过提示举行小样本学习。这种类型的范式通常实用于大型语言模型(具有数十亿个参数),比方 GPT-3(Brown 等人,2020 年)、OPT(Zhang 等人,2022b)、LLaMA-1(Touvron 等人,2023a)、LLaMA-2(Touvron 等人,2023b)、Falcon(Almazrouei 等人,2023 年)。这些模型称为基础模型或基础模型 2,它们可以与用户聊天,而无需进一步与人类偏好保持划一。大型模型通常适合这种范式,大小超过 1B。比方,LLaMA-2 (Touvron et al., 2023b) 具有多达 70B 的参数。基础模型的表明旨在了解模型如何学习利用其预训练的知识来相应提示。
辅助模型:基本模型有两个重要限制:1) 它们无法遵循用户指示,因为预训练数据包含很少的指令相应示例,以及 2) 它们往往会产生有偏见和有毒的内容(Carlini et al., 2023)。为了解决这些限制,基本模型通过监督微调(参见图 2)进一步微调,以实现人类水平的本领,比方开放域对话。关键思想是使模型的相应与人类的反馈和偏好保持划一。这个过程最典型的方法是通过 (prompts, response) 演示对和来自人类反馈的强化学习 (RLHF) 举行指令调整。模型利用天然语言反馈举行训练举行复杂的多轮次对话。属于这个家族的模型包罗 OpenAI 的 GPT-3.5 和 GPT4(Bubeck et al., 2023)、Anthropic 的 Claude(AnthropicAI,2023 年),以及开源模型,如 Meta 的 LLaMA-2-Chat(Touvron et al., 2023b)、Alpaca(Taori et al., 2023)和 Vicuna(Chiang et al.,2023)。这些模型可以称为 Assistant Model、Chat Assistant 或 Dialogue Model。此处的表明侧重于了解模型如何从对话中学习开放式交互式行为。
https://i-blog.csdnimg.cn/direct/8a0084de0e29495d90d6ba2cecbeb79f.png
https://i-blog.csdnimg.cn/direct/3a32e54e0bef4751a048ea3469d8a9b1.png

3 传统微调范式的表明
在本节中,我们回顾了利用预训练和下游微调范式训练的 LLM 的表明技能。起首,我们介绍了提供局部表明(第 3.1 节)和全局表明(第 3.2 节)的方法。在这里,局部表明旨在提供对语言模型如何对特定输入实例举行猜测的理解,而全局表明旨在提供对 LLM 整体工作原理的广泛理解。接下来,我们将讨论如何利用表明来调试和改进模型(第 3.3 节)。
3.1 当地分析
第一类表明是指表明 LLM 天生的猜测。让我们考虑一个场景,我们有一个语言模型,我们将特定文本输入到模型中。然后,该模型会生身分类输出,比方情绪分类或对下一个标志的猜测。在这种环境下,表明的作用是分析模型天生特定分类或标志猜测的过程。由于目标是表明 LLM 如何对特定输入举行猜测,因此我们将其称为局部表明。该种别包罗天生表明的四种重要方法,包罗基于特征归因的表明、基于注意力的表明、基于示例的表明和天然语言表明(见图 3)。
3.1.1 基于特征归因的表明
特征归因方法旨在衡量每个输入特征(比方,单词、短语、文本跨度)与模型猜测的相干性。给定一个由 n 个单词特征构成的输入文本 x:,一个微调的语言模型 f 会天生一个输出 )。归因方法为输入词特征 8452661f-7138-491e-8dfd-19dfc71c-4e67-67-aacc-4e67-a1e2-3f6df0dff69c 分配相干性分数 099de41c-e731c,以反映其对模型猜测  的贡献。遵循此计谋的方法重要可分为四种类型:基于扰动的方法、基于梯度的方法、代理模型和基于分解的方法。
基于扰动的表明 基于扰动的方法通过扰动输入示例(比方删除、屏蔽或更改输入特征)以及评估模型输出更改来工作。最直接的计谋是留一法,它通过删除各个级别的特征来扰乱输入,包罗嵌入向量、隐藏单元(Li et al., 2017)、单词(Li et al., 2016)、标志和跨度(Wu et al., 2020b)来衡量特征重要性。基本思路是删除最小输入集以更改模型猜测。输入集是利用各种指标(比方置信度分数或强化学习)选择的。但是,此删除计谋假定输入特征是独立的,而且忽略了它们之间的相干性。别的,由于过度自信模型的病理行为,基于置信度分数的方法大概会失败(Feng et al., 2018)。比方,纵然减少的输入是无意义的,模型也可以保持高置信度猜测。这种过度自信题目可以通过以下方式缓解
利用通例示例举行正则化、标签平滑和微调模型的置信度(Feng et al., 2018)。别的,当前的扰动方法往往会产生分布外数据。这可以通过限制扰动的数据以保持靠近原始数据分布来缓解(Qiu et al., 2021)。
基于梯度的表明 基于梯度的归因技能通过分析输出相对于每个输入维度的偏导数来确定每个输入特征的重要性。导数的大小反映了输出对输入变革的敏感性。原始梯度方法的基本公式描述为  ,其中  )是网络的猜测函数, 表现输入向量。该方案也作为梯度 × 输入得到了改进(Kindermans 等人,2017 年),并已用于各种表明任务,比方盘算代币级归因分数(Mohebbi 等人,2021 年)。但是,基于 Vanilla 梯度的方法有一些重要限制。起首,它们不满足输入稳定性,这意味着输入转换(如常移)可以产生误导性归因,而不会影响模型猜测(Kindermans et al., 2017)。其次,他们无法处置惩罚零值输入。第三,它们遭受梯度饱和,其中大梯度占主导地位,并掩盖了较小的梯度。与参考的差异方法,比方综合梯度 (IG),被以为非常适合通过满足更多的归因公理来解决这些挑战(Sundararajan et al., 2017)。IG 及其变体的基本机制是累积在参考点和现实输入之间对输入举行插值时得到的梯度。基线参考点对于可靠评估至关重要,但选择得当基线的尺度仍不清楚。有些利用噪声或合成参考来训练数据,但不能包管性能(Lundstrom et al., 2022)。别的,IG 难以捕获饱和区域的输出变革,应关注非饱和区域(Miglani et al., 2020)。IG 的另一个挑战是实现高质量积分的盘算开销。由于 IG 沿直线路径集成,因此不能很好地拟合离散词嵌入
空间,已经开辟了变体来使其适应语言模型(Sikdar et al., 2021;Sanyal & 任, 2021;Enguehard,2023 年)。
代理模型 代理模型方法利用更简单、更易理解的模型来表明黑盒模型的单个猜测。这些代理模型包罗决策树、线性模型、决策规则和其他本质上更轻易为人类理解的白盒模型。表明模型需要满足可加性,这意味着猜测的总影相应等于每个表明因子的单个影响之和。别的,可表明表现的选择也很重要。与原始特征不同,这些表现应该足够强大以天生表明,但对人类来说仍然易于理解和故意义。一种称为 LIME 的早期代表性局部表明方法(Ribeiro et al., 2016)接纳了这种范式。为了天生特定实例的表明,代理模型将基于围绕该实例当地采样的数据举行训练,以近似原始复杂模型在当地区域中的行为。然而,效果表明 LIME 并不满足加法归因的某些属性,比方局部正确性、划一性和缺失性(Lundberg & Lee,2017b)。SHAP 是另一个满足加法归因方法理想属性的框架(Lundberg & Lee,2017b)。它将特征视为合作猜测游戏中的参与者,并为每个特征子集分配一个值,以反映它们对模型猜测的贡献。SHAP 不是为每个实例构建一个局部表明模型,而是利用整个数据集盘算 Shapley 值(Shapley et al., 1953)。应用 SHAP 的挑战包罗选择得当的方法来删除特征和有用地估计 Shapley 值。可以通过将值替换为分布中的零、均值或样本等基线来完成特征删除,但尚不清楚如何选择正确的基线。估计 Shapley 值还面对着特征数目呈指数级盘算的复杂性。已接纳包罗加权线性回归、置换检验和其他特定于模型的方法在内的近似计谋(Chen 等人,2023c)来估计 Shapley 值。尽管很复杂,但 SHAP 仍然很受欢迎并被广泛利用,因为它对大型深度模型具有表现力。为了使 SHAP 适应基于 Transformer 的语言模型,已经提出了 TransSHAP 等方法(Chen et al., 2023c;Kokalj 等人,2021 年)。TransSHAP 重要侧重于使 SHAP 适应子词文本输入,并提供非常适合理解 LLM 如何举行猜测的次序可视化表明。
空间,已经开辟了变体来使其适应语言模型(Sikdar et al., 2021;Sanyal & 任, 2021;Enguehard,2023 年)。
代理模型 代理模型方法利用更简单、更易理解的模型来表明黑盒模型的单个猜测。这些代理模型包罗决策树、线性模型、决策规则和其他本质上更轻易为人类理解的白盒模型。表明模型需要满足可加性,这意味着猜测的总影相应等于每个表明因子的单个影响之和。别的,可表明表现的选择也很重要。与原始特征不同,这些表现应该足够强大以天生表明,但对人类来说仍然易于理解和故意义。一种称为 LIME 的早期代表性局部表明方法(Ribeiro et al., 2016)接纳了这种范式。为了天生特定实例的表明,代理模型将基于围绕该实例当地采样的数据举行训练,以近似原始复杂模型在当地区域中的行为。然而,效果表明 LIME 并不满足加法归因的某些属性,比方局部正确性、划一性和缺失性(Lundberg & Lee,2017b)。SHAP 是另一个满足加法归因方法理想属性的框架(Lundberg & Lee,2017b)。它将特征视为合作猜测游戏中的参与者,并为每个特征子集分配一个值,以反映它们对模型猜测的贡献。SHAP 不是为每个实例构建一个局部表明模型,而是利用整个数据集盘算 Shapley 值(Shapley et al., 1953)。应用 SHAP 的挑战包罗选择得当的方法来删除特征和有用地估计 Shapley 值。可以通过将值替换为分布中的零、均值或样本等基线来完成特征删除,但尚不清楚如何选择正确的基线。估计 Shapley 值还面对着特征数目呈指数级盘算的复杂性。已接纳包罗加权线性回归、置换检验和其他特定于模型的方法在内的近似计谋(Chen 等人,2023c)来估计 Shapley 值。尽管很复杂,但 SHAP 仍然很受欢迎并被广泛利用,因为它对大型深度模型具有表现力。为了使 SHAP 适应基于 Transformer 的语言模型,已经提出了 TransSHAP 等方法(Chen et al., 2023c;Kokalj 等人,2021 年)。TransSHAP 重要侧重于使 SHAP 适应子词文本输入,并提供非常适合理解 LLM 如何举行猜测的次序可视化表明。
https://i-blog.csdnimg.cn/direct/85f58d8f872147f1b460c9bf0e775028.png
3.1.2 基于注意力的表明
注意力机制通常被视为关注输入中最相干部分的一种方式。直观地说,注意力可以捕获到输入的中心状态之间故意义的相干性,这些相干性可以表明模型的猜测。许多现有的方法试图仅根据注意力权重或通过分析注意力中编码的知识来表明模型。这些表明技能可以分为三大类:可视化方法、基于函数的方法和基于探测的方法。由于通常利用基于探测的技能来学习全局表明,因此在 Section 3.2.1 中讨论了它们。别的,关于注意力权重是否真的适合表明,存在着广泛的研究争论。本主题将在后面的讨论中介绍。
可视化 可视化注意力提供了一种直观的方式,通过显示注意力模式和统计数据来了解模型的工作原理。常见技能包罗可视化单个
利用二分图或热图输入。这两种方法只是注意力的不同视觉表现,一种是图形,另一种是矩阵,如图 4 所示。可视化系统的不同之处在于它们通过以不同模型的各种形式表现注意力来显示多个尺度上的关系的本领。在输入数据层面,显示了前提句和假设句之间每个单词 / 标志 / 句子对的注意力分数,以评估模型猜测的老实度(Vig,2019)。一些系统还允许用户手动修改注意力权重以观察效果(Jaunet et et al., 2021)。在神经元水平上,可以查抄单个注意力头以了解模型行为(Park 等人,2019 年;Vig,2019 年;Hoover et al., 2020;Jaunet 等人,2021 年)。在模型级别,跨头部和层的注意力被可视化以辨认模式(Park 等人,2019 年;Vig,2019 年;Yeh et al., 2023)。一项值得注意的工作侧重于可视化注意力流以追踪注意力的演变,这可用于理解信息转换并实现模型之间的训练阶段比较(DeRose et al., 2020)。因此,注意力可视化提供了一种明白的交互式方式来诊断偏差、错误和评估决策规则。风趣的是,它尚有助于形成表明性假设。
基于函数的方法由于原始注意力不敷以完全表明模型猜测,因此一些研究开辟了加强的变体作为替代品,以确定需要表明的重要属性。梯度是衡量敏感度和显著性的公认指标,因此它被广泛纳入自定义归因分数中。这些自行设计的归因分数在定义涉及注意力权重的梯度方面有所不同。比方,梯度可以是注意力权重输出的偏导数(Barkan et al., 2021)或部分梯度的积分版本(Hao et al., 2021)。梯度和注意力之间的运算也大概有所不同,比方元素级乘积。总体而言,这些混合了注意力和梯度的归因分数通常比单独利用任何一个效果更好,因为它们融合了更多信息,有助于突出重要特征和了解网络。
关于注意力的争论 有广泛的研究评估了注意力头,但关于这种方法有用性的争论不太大概很快得到解决。争论源于几个关键方面。起首,一些作品将基于注意力的表明与来自 LIME 等其他方法的表明举行了比较。他们发现注意力往往无法辨认猜测的最重要特征(Serrano & Smith, 2019;Jain & Wallace,2019 年)。与这些替代方案相比,它们提供的表明较差(Thorne 等人,2019 年)或者无法与其他表明方法相干联(Jain & Wallace,2019 年;Liu et al., 2020;Ethayarajh & Jurafsky,2021 年)。其次,一些人直接批评了注意力机制在模型猜测中的有用性。他们以为,原始注意力无法捕获文本中的句法结构,而且大概无法像通常假设的那样对猜测做出贡献(Mohankumar et al., 2020)。别的,原始注意力包含冗余信息,低落了其表明的可靠性(Bai et al., 2021;Brunner 等人,2019 年)。然而,其他研究与这些说法相抵牾。比方,评估表明模型的划一性大概会在各种方法中带来挑战,而不但仅是注意力(Neely et al., 2021)。别的,在不举行重新训练的环境下操纵注意力权重大概会使评估产生偏差(Wiegreffe &
inter,2019 年)。别的,BERT 中的注意力头已被证明可以有用地编码语法(Clark et al., 2019)。为了使注意力易于表明,还通过优化输入表现(Mohankumar et al., 2020)、规范学习目标(Moradi et al., 2021)、制止有偏见的学习(Bai et al., 2021)甚至纳入人类原理(Arous et al., 2021)来探索技能解决方案。但正在举行的辩论的核心原因是缺乏完善的评估尺度,这将在第 5.1 节中进一步讨论。
3.1.3 基于示例的表明
基于示例的表明旨在从单个实例的角度表明模型行为(Koh & Liang,2017)。与基于模型或基于特征的表明不同,基于示例的表明分析了模型的输出如何随不同的输入而变革。我们专注于对抗性示例、反事实表明和数据影响。对抗性示例通常是通过操纵 Importing 数据中不太重要的组件来合成的。它们揭示了模型动摇或错误的环境,分析了它的弱点。相比之下,反事实表明重要是通过更改输入数据的重要部分天生的,它们在算法追索权等场景中很受欢迎,因为它为理想的效果提供了调停步伐。与操纵输入不同,数据影响查抄训练数据如何影响模型对测试数据的猜测。
对抗性示例研究表明,神经模型极易受到输入数据中的微小变革的影响。这些精心设计的修改可以改变模型决策,同时险些不会被人类注意到。对抗性示例对于揭示模型失败的范畴至关重要,而且通常会添加到训练数据中以提高稳健性和正确性。对抗性示例最初是通过单词级操纵天生的,比方错误、删除和插入,这些操纵在查抄时很明显。更高级的代币级扰动方法,如 TextFooler (Jin et al., 2020) 已经被推进,它根据排名战略性地起首针对重要词。然后,根据单词嵌入相似性、雷同词性、句子语义相似性和猜测偏移来选择候选词。然而,与上下文化表现相比,句子表现中的单词嵌入受到限制,这通常会导致不连贯的片断。通过关注情境化的表现,一系列接纳面具后填充步伐的工作已经达到了开始进的性能(Garg & Ramakrishnan,2020;Li et al., 2021b)。他们利用预先训练的掩码语言模型(如 BERT)举行扰动,包罗替换、插入和合并。通常,利用大型语料库来训练掩码语言模型、天生上下文化表现并得到标志重要性。然后冻结模型,并按排名次序对 Token 执行扰动操纵。对于替换,天生的示例将替换掩码令牌。对于注入,新令牌将插入到掩码令牌的左侧或右侧。对于合并,二元语法被屏蔽并替换为一个标志。SemAttack (Wang et al., 2022b) 提出了一个更通用、更有用的框架,实用于各种嵌入空间,包罗错别字空间、知识空间和情境化语义空间。起首,将输入标志转换为嵌入空间,以天生颠末迭代优化的扰动嵌入,以满足攻击目标。实验表明,替换 5% 的单词会将 BERT 的正确率从 70.6% 低落到 2.4%,纵然在白盒设置中举行防御也是如此。SemAttack 出色的攻击性能大概是因为它直接操纵嵌入。
反事实表明 反事实表明是随意表明的一种常见形式,将输入视为格兰杰因果关系下猜测的原因。给定观察到的输入 x 和某些特征发生变革的扰动,猜测 y 将更改为  。反事实表明揭示了根据观察到的某些输入变革会发生什么。它们通常是为了满足某些需求而天生的,比方通过选择特定的反事实来满足算法追索权。示例可以由人类或扰动技能(如释义或单词替换)天生。具有代表性的天生器 Polyjuice (Wu et al., 2021) 支持输入句子的多种排列类型,比方删除、否定和洗牌。它还可以根据代币的重要性来扰乱代币。然后,Polyjuice 对针对下游任务量身定制的特定原始句子和扰动句子对 GPT-2 举行微调,以提供逼真的反事实。它天生了更广泛的反事实,每个反事实的中位速度为 10 秒,而以前依赖于人群工人的方法为 2 分钟(Kaushik 等人,2020 年)。反事实表明天生被定义为涉及第一个掩码的两阶段方法
................












4 提树模式分析
随着语言模型的规模扩大,基于提示的模型表现出涌现的本领,需要新的视角来分析其潜在机制。然而,模型规模的激进激增使传统的表明方法变得不实用。将针对传统微调范式的某些可表明性技能应用于基于提示的范式的挑战可以从多个方面举行总结。比方,基于提示的模型依赖于推理本领(Wei et al., 2023b),这使得当地化或特定于示例的表明变得不那么故意义。别的,在数千亿个参数或更大的规模上,盘算要求苛刻的表明技能很快就会变得不可行。别的,基于提示的模型错综复杂的内部工作和推理过程太复杂,无法通过简化的代理模型来有用捕获。
鉴于这些挑战,针对这种提树模式量身定制的新表明技能正在出现。比方,头脑链 (CoT) 表明大概为基于提示理解和表明大型语言模型的行为提供更符合的方法。别的,专注于辨认有助于猜测的有影响力示例的方法也越来越重要。辨认这些关键数据点大概会显著加强我们对数据集构成的理解。传统微调范式的全局表明技能也被广泛用于基于提示的 LLM。特别是这些能够提供高级表明的技能,比方基于概念的表明和基于模块的表明。
在本节中,我们起首介绍表明属于提树模式的模型的技能,包罗 1) 表明 LLaMA-2 等基本模型(第 4.1 节),2) 表明 LLaMA-2-Chat 等辅助模型(第 4.2 节),以及 3) 如何利用 LLM 的推理和表明本领来提高语言模型的猜测性能并实现有益的应用步伐(第 4.3 节)。
4.1 基础模型分析
随着语言模型规模的增长,它们表现出新的本领,如小样本学习,即仅从几个例子中学习概念的本领。他们还展示了一种头脑链 (CoT) 提示本领,该本领允许向模型提供一系列提示,以引导其天生朝着特定方向发展并让它表明其推理(Wei et al., 2022)。鉴于这些新兴特性,可表明性研究有三个重要目标:1) 了解这些大型语言模型如何从有限的示例中如此快速地把握新任务,这有助于最终用户表明模型的推理,2) 表明 CoT 提示,以及 3) 和表现工程。
4.1.1 表明情境学习
可表明的 AI 技能已被用于分析提示在 LLM 中的工作原理。详细来说,我们讨论了分析上下文学习 (ICL) 如何影响模型行为的技能。
一项研究利用 SST-2 情感分析基准作为基线任务来表明情境学习范式(Li et al., 2023b)。它通过分析对比演示和显著性图来研究 ICL 在 LLM 中的工作原理。作者通过翻转标签、扰乱输入文本和添加增补表明来构建对比演示。对于情感分析任务,他们发现翻转标签更有大概低落较小模型(比方 GPT-2)的显著性,而对大型模型(比方 InstructGPT)产生相反的影响。不同演示类型的影响好像因模型规模和任务类型而异。需要对一系列模型、任务和数据集举行进一步分析。另一项研究观察了大型语言模型中的 ICL 是否由预训练中的语义先验启用,或者它是否从提供的示例中学习输入标签映射(Wei et al., 2023b)。实验效果表明,大型模型可以覆盖语义先验并学习相互抵牾的输入标签映射,而小型模型则更严峻地依赖先验。在 ICL 示例中利用翻转标签的实验表明,大型模型可以学习翻转猜测,而小型模型则不能。这些效果表明,LLM 具有更强的学习恣意输入标签映射的本领,这是一种不受语义先验束缚的符号推理形式,这挑战了 ICL 完全由利用先验驱动的观点。
4.1.2 表明 CoT 提示
一项研究通过分析输入标志的显著性分数来观察头脑链 (CoT) 提示如何影响 LLM 的行为(Wu et al., 2023a)。显著性分数表现每个输入标志对模型输出的影响程度。分数是利用基于梯度的特征归因方法盘算的。目标是了解 CoT 提示与尺度提示相比是否会改变显著性分数,从而深入了解 CoT 为何会提高性能。显著性分数的分析表明,CoT 提示使模型以更稳定的方式考虑题目标志。与尺度提示相比,这种更稳定的输入考虑大概会产生更划一、更正确的答案。其他工作集中在扰乱小镜头提示中的 CoT 演示,比方,通过添加错误,以确定哪些方面对于天生高性能表明很重要(Madaan & Yazdanbakhsh,2022;Wang et al., 2022a)。已经提出了反事实提示来扰乱提示的关键构成部分:符号、模式和文本(Madaan & Yazdanbakhsh),2022)。实验分析表明,中心推理步骤更多地充当模型将符号复制到事实答案的灯塔,而不是促进学习解决任务。
4.1.3 表现工程
与上述从提示工程角度表明 LLM 的两条研究方向不同,这一系列研究从表现工程的角度表明 LLM。表现工程从自上而下的角度表明模型,并考虑表现及其转换作为分析的重要元素。这种方法侧重于表征空间的结构和特征,以捕获告急表征和高级认知征象。Zou et al. (2023) 将表现工程分为两部分:1) 表现阅读,2) 表现控制。表现法读取标识网络中高级概念和函数的表现法。受神经影像学方法的启发,接纳了线性人工断层扫描。为了很好地引出概念和功能,包含刺激或指令的提示模板是单独设计的。对于概念,神经活动可以从最具代表性的 tokes 的表现中网络,也可以从末了一个标志中网络。对于函数,可以从特定标志后的相应中网络神经活动。然后,引入线性探针来猜测具有神经活动的概念和函数。表现控制旨在根据对表现阅读的理解来操纵概念和功能的内部表现,以满足安全要求。直接添加读取向量可以诱导诚实的模型输出,减去读取向量可以诱导模型说谎,这在改进模型方面显示出巨大的潜力。同样,在高质量的 true/false 语句数据集上研究表现结构也揭示了表现的线性结构。颠末训练的探针在其他数据集上具有很好的泛化效果。就像在上述工作的结论中一样,真理的方向可以被辨认并用来诱导真假输出(Marks & Tegmark),2023)。通过分析六个空间或时间数据集的学习表现,LLaMA-13B 等 LLM 被证明可以学习空间和时间的线性表现。别的,在不同大小的模型中也发现了类似的模式。随着模型规模的扩大,表现也越来越正确。该模型还具有专门的神经元,这些神经元会随着空间或时间的变革而激活,这与 LLMs 中事实知识的创建相符(Gurnee & Tegmark),2023)。总之,表现工程大概是控制模型输出的有前途的技能,但仍需要进一步的消融研究来确定其优缺点。

4.2 辅助模型分析
由于大规模的无监督预训练和有监督的对齐微调,属于该范式的 LLM 具有很强的推理本领。然而,它们的庞大规模也使它们轻易产生有题目的输出,比方幻觉。可表明性研究旨在 1) 分析对齐微调的作用,2) 分析幻觉的原因,以及 3) 不确定性量化。
4.2.1 表明微调的作用
辅助模型通常分两个阶段举行训练。起首,他们对大量原始文本举行无监督的预训练,以学习一般的语言表现。这个预训练阶段允许模型得到一般语言知识。其次,模型通过监督学习和强化学习举行对齐微调。这将使模型与特定的最终任务和用户首选项保持划一。对这些模型的可表明性研究侧重于确定它们的知识是重要来自最初的预训练阶段,在这个阶段,他们得到了一般的语言本领,照旧来自随后的对齐微调阶段,在这个阶段,他们是根据特定的任务和偏好量身定制的。了解模型知识的泉源有助于深入了解如何改进和表明其性能。
周 et al. (2023) 近来的一项研究观察了语言模型预训练与教学微调的相对重要性。在实验中,作者仅利用了 1000 条精心挑选的指令来调整 LLaMA-65B 模型,没有强化学习,并取得了与 GPT-4 相当的性能。研究人员假设,对齐大概是一个更简单的过程,模型学习交互方式和格式,而险些全部的 LLM 知识都是在预训练期间得到的。实验效果证明了预训练的气力及其相对于大规模微调和强化学习方法的相对重要性。复杂的微调和强化学习技能大概没有以前以为的那么重要。另一方面,这项研究还表明,在指令微调过程中,数据质量比数据量更重要。别的,Wu et al. (2023c) 通过查抄指令遵循和概念层面的知识进化来研究指令微调的作用。效果表明,指令微调模型能够更好地区分指令和上下文,并很好地遵循用户的指令。别的,与预训练模型相比,他们可以更多地关注输入提示的中心和尾部。微调模型明白地将概念调整为面向下游用户的任务,但语言分布保持稳定。与传统观点相反,即高层捕获更多语义知识,捕获的语义知识的比例最初增长,然后在微调模型中急剧降落。从自我注意头激活的角度来看,发现指令微调通过使较低层中的更多神经元编码词 - 词模式来适应辨认指令动词的预训练模型(Wu et al., 2023c)。
近来的另一项研究 (Gudibande et al., 2023) 表明,模仿可以乐成地改善语言模型的风格、角色和遵循指令的本领,但不能在事实性、编码和题目解决等更复杂的维度上改进语言模型。模仿是另一种常用的训练辅助模型的技能,其中像 GPT-2 或 LLaMA 如许的基础模型是根据更高级系统(比方 ChatGPT 等专有模型)天生的输出举行微调的。别的,LLaMA-2 的技能报告(Touvron et al., 2023b)表明,微调阶段重要有助于提高语言模型的有用性和安全性,其中有用性描述了 LLaMA-2Chat 相应满足用户哀求和包含预期信息的程度,安全性是指制止不安全的相应,如有毒内容。
综上所述,这些研究强调了基础模型的重要作用,强调了预训练的重要性。研究效果表明,辅助模型的知识重要在预训练阶段被捕获。随后的指令微调有助于激活这些知识,为最终用户提供有用的输出。别的,强化学习可以进一步使模型与人类价值观保持划一。
4.2.2 表明幻觉
LLM 的快速发展引发了人们对其可信度的担忧,因为它们有大概表现出不良行为,比方产生幻觉,这是一种模型以天然方式产生无关告急和荒谬的输出的征象(Zhang 等人,2023 年;Huang 等人,2023 年)。社区对了解幻觉是如何产生的以及如何减少幻觉产生的爱好越来越大。
近来的分析研究表明,幻觉征象源于数据集中的各种题目(Dziri et al., 2022),可分为两大类:1) 缺乏相干数据,2) 重复数据。比方,长尾知识在训练数据中很普遍,而 LLM 在学习此类知识方面很轻易不敷(Kandpal et al., 2023)。另一方面,重复数据删除很难完善完成。训练数据集中的重复数据会明显影响模型的性能。Hernandez 等人(2022 年)发现,仅重复 10% 的训练数据,800M 参数模型的性能就会降落到 400M 参数模型的性能。当根据缩放定律查抄模型的性能时,中心的一定范围的重复频率大概会产生倒霉影响。假设此范围会导致模型记住数据,因此消耗其大部分容量。
别的,近来的研究发现,幻觉也是由模型固有的某些限制引起的。McKenna 等人(2023 年)表明,LLM 仍然依赖于句子级别的记忆和语料库级别的统计模式,而不是稳健的推理。他们对各种 LLM 家族在天然语言推理任务上的表现的分析证明了这一点。别的,Wu et al. (2023b) 揭示了 LLM 在本体论知识的记忆和推理方面都是不完善的。Berglund 等人(2023 年)指出,由于反转诅咒,LLM 通常会遭受逻辑推导。LLM 往往对自己的产出过于自信,并难以正确辨认事实知识边界(任 et al., 2023)。别的,LLM 更喜欢共现的词而不是事实答案,这种征象通常被称为捷径或虚伪相干性(Kang & Choi),2023)。同样,LLM 中也存在另一种不良行为阿谀奉承,它指的是模型可以天生符合用户观点而不是事实的答案。最糟糕的是,模型缩放和指令调整大概会增长这种行为(Wei et al., 2023a)。
有几种方法可以解决幻觉题目。起首,扩展始终是一个很好的步骤。具有 5400 亿个参数的 PaLM 在各种任务上的性能急剧提高。纵然它也因学习长尾知识而受到影响,但它的记忆本领被证明比小模型更好(Chowdhery et al., 2022)。在文本摘要任务中,Ladhak et al. (2023) 表明,利用更多的提取性微调数据集和微调部分参数的适配器微调通常会产生较少的幻觉,但不会改幻化觉的分布。因此缓解步伐可以通过数据方面来实现,比方改进微调数据集和添加 syntheticData 干预(Wei et al., 2023a),也可以在模型方面实现,比方不同的优化方法。

4.2.3 不确定性量化
研究界对量化 LLM 猜测的不确定性的爱好也越来越大,以更好地了解这些强大模型的可靠性和范围性。
大多数关于不确定性量化的现有文献都集中在 logits,然而,它不太适合 LLM,尤其是闭源 LLM。这需要非基于 logit 的方法在 LLM 中引发不确定性,称为置信度激发(Xiong et al., 2023)。LLM 的不确定性估计有几种代表性方法。起首,基于划一性的不确定性估计涉及对一个题目天生多个回答,并利用这些回答之间的划一性来估计模型的置信度(Xiong et al., 2023)。详细来说,它将随机性引入答案天生过程(自洽性)或向提示中添加误导性提示(诱导划一性)以产生不同的相应。多个相应越划一,答案的估计置信度就越高。其次,LLM 可以通过提供直接和详细的回答来表现对他们的猜测有很高的信心,并给出间接、模糊或含糊其词的回答来传达较低的信心,从而口头传递他们的信心。LLM 可以明白分析一个百分比来量化其置信度。比方,“我对这个答案只有 20% 的信心” 清楚地表明了低信心(Xiong et al., 2023)。第三,不确定性可以从代币层面的不确定性中汇总出来(Duan et al., 2023)。LLM 通过猜测每个标志来天生文本,该标志可以构建为分类任务。令牌级别的不确定性方法根据每个猜测令牌的概率分布盘算其置信度分数。然后,可以根据代币级不确定性的聚合来估计总体不确定性。
缓解步伐可以通过数据方面来实现,比方改进微调数据集和添加 syntheticData 干预(Wei et al., 2023a),也可以在模型方面实现,比方不同的优化方法。
4.2.3 不确定性量化
研究界对量化 LLM 猜测的不确定性的爱好也越来越大,以更好地了解这些强大模型的可靠性和范围性。
大多数关于不确定性量化的现有文献都集中在 logits,然而,它不太适合 LLM,尤其是闭源 LLM。这需要非基于 logit 的方法在 LLM 中引发不确定性,称为置信度激发(Xiong et al., 2023)。LLM 的不确定性估计有几种代表性方法。起首,基于划一性的不确定性估计涉及对一个题目天生多个回答,并利用这些回答之间的划一性来估计模型的置信度(Xiong et al., 2023)。详细来说,它将随机性引入答案天生过程(自洽性)或向提示中添加误导性提示(诱导划一性)以产生不同的相应。多个相应越划一,答案的估计置信度就越高。其次,LLM 可以通过提供直接和详细的回答来表现对他们的猜测有很高的信心,并给出间接、模糊或含糊其词的回答来传达较低的信心,从而口头传递他们的信心。LLM 可以明白分析一个百分比来量化其置信度。比方,“我对这个答案只有 20% 的信心” 清楚地表明了低信心(Xiong et al., 2023)。第三,不确定性可以从代币层面的不确定性中汇总出来(Duan et al., 2023)。LLM 通过猜测每个标志来天生文本,该标志可以构建为分类任务。令牌级别的不确定性方法根据每个猜测令牌的概率分布盘算其置信度分数。然后,可以根据代币级不确定性的聚合来估计总体不确定性。
4.3 利用表明
在本节中,我们讨论了利用基于提示的 LLM 的表明本领来提高语言模型的猜测性能并实现有益的应用步伐的技能。
4.3.1 改进 LLM
这条研究线观察了 LLM 在从有限示例中学习新任务时是否可以从表明中受益。详细来说,它观察了为小样本任务的答案提供表明是否可以提高模型在这些任务上的性能(Lampinen et al., 2022)。提供两种形式的表明:回答前表明和回答后表明。Wei et al. (2022) 提出了一种称为头脑链提示的方法,该方法提供中心推理步骤作为答案前提示中的表明。这有助于语言模型在算术、符号和常识性推理任务中取得开始进的效果。近来的另一项研究在提示中的答案后提供了表明(Lampinen et al., 2022)。实验分析表明,提供表明可以提高大型语言模型的 few-shot 学习性能,但长处取决于模型规模和表明质量。别的,利用验证集专门为任务定制表明会进一步增长它们的长处(Lampinen et al., 2022)。
近来的另一项研究提出了表明调整,这是一种利用更高级模型的详细分步表明作为一种监督形式来训练较小的语言模型的方法(Mukherjee et al., 2023)。Section 4.2.1 表现 imitation tuning 重要允许较小的模型学习较大模型的样式,而不是推理过程。为了解决这一限制,这项工作提出了利用更丰富的信号,而不但仅是输入 - 输出对,来教较小的模型来模仿 GPT-4 等大型基础模型的推理过程。详细来说,作者网络了由 GPT-4 的提示和详细的表明性回答构成的训练数据。为了允许 GPT-4 天生表明,系统指令,比方 “您是一个乐于助人的助手,总是提供表明。像你正在回答一个五岁的孩子一样思索。实验效果表明,在复杂的零镜头推理基准测试(如 BigBench Hard)中,利用表明调整训练的模型优于利用传统指令调整训练的模型。

从表明中捕获的看法也可用于压缩分析(Yin et al., 2023)。作者利用消融分析来研究不同种别的内容在任务定义中的贡献。然后可以利用消融分析的看法来压缩任务指令。以分类任务为例,分析表明任务指令中最重要的构成部分是标签相干信息。删除其他内容只会对分类性能产生轻微影响,作者发现,只有在删除输出标签信息时,模型性能才会大幅降落。别的,他们还提出了一种算法,通过删除不必要的标志来自动压缩定义,发现可以删除 60%,同时保持或提高 T5-XL 模型在保留数据集上的性能。
别的,一些研究还深入研究了 LLM 天生的表明在加强小样本上下文学习方面的有用性。对于涉及代码执行和算术运算的多步骤符号推理任务,Nye 等人(2021 年)发现,结合中心盘算步骤可以显着提高模型的本领。另一方面,当涉及到包罗问答和天然语言推理在内的文本推理任务时,只有 text-davinci-002 的正确性有所提高。其他 4 个模型,包罗 OPT、GPT-3(davinci)、InstructGPT(text-davinci-001) 和 textdavinci-002,没有表现出明显的改善,甚至表现更差。LLM 天生的表明从两个维度举行评估:事实性和划一性。效果显示,LLMs 可以产生不切现实的表明,但仍与猜测划一,这反过来又会导致猜测错误(Ye & Durrett),2022)。基于这个发现,已经提出了一个表明优化框架来选择导致高性能的表明(Ye & Durrett,2023)。因此,提高模型猜测的正确性需要 LLM 天生可靠的表明,这在现在仍然是一个巨大的挑战。
4.3.2 下游应用
可表明性还可以应用于现实世界的题目,比方教育、金融和医疗保健。比方,可表明的零镜头医学诊断就是一个风趣的用例。近来的一项研究提出了一个框架,利用 CLIP 等视觉语言模型以及 ChatGPT 等 LLM 举行可表明的零镜头医学图像分类(Liu et al., 2023a)。关键思想是利用 ChatGPT 自动天生疾病症状和视觉特征的详细文本描述,而不但仅是疾病名称。这些额外的文本信息有助于从 CLIP 提供更正确和可表明的诊断(Radford 等人,2021 年)。为了处置惩罚 ChatGPT 在医学主题上的潜在不正确之处,作者设计了提示,以得到每种疾病种别的视觉可辨认症状的高质量文本描述。对多个医学图像数据集的广泛实验证明了这种免训练诊断管道的有用性和可表明性。
5 表明评估
在前面的部分中,我们介绍了不同的表明技能及其用法,但评估它们如何老实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类:传统微调范式的局部表明评估(第 5.1 节)和提树模式的天然语言 CoT 表明的评估(第 5.2 节)。评估的两个关键维度是人类的合理性和捕获 LLM 内部逻辑的老实度。
从技能上讲,评估表明涉及人工或自动化模型方法。人工评估通过模型基本原理与人类基本原理或主观判定之间的相似性来评估合理性。然而,这些方法通常忽略了忠心。主观判定也大概与模型推理不划一,因此如许的评估不可靠。正如 Jacovi & Goldberg (2020)所论述的,老实的评估应该有一个明白的目标,制止人为参与。自动评估通过扰乱模型基本原理来测试重要性,制止人为偏见。因此,订定严格的自动指标对于公平的老实度评估至关重要,这将包含在老实度评估维度下。

5.1 传统微调范式中的表明评估
我们从两个方面介绍对当地表明的评价:合理性和老实度。这两部分将重要涵盖可用于比较各种表明方法的通用属性和指标。我们专注于定量评估属性和指标,它们通常比定性评估更可靠。
评估合理性 当地表明的合理性通常在输入文本或标志级别举行丈量。合理性评估可分为五个维度:语法、语义、知识、推理和盘算(Shen et al., 2022)。这些维度描述了掩码输入和人工注释的基本原理之间的关系。不同的评估维度需要不同类型的数据集。比方,句子 “The country was established on July 4, 1776.” 具有人工注释的基本原理 “established on July 4, 1776”,而掩码的答案应该是源自事实 / 知识的 “the United States”。尽管基本原理大概位于不同的粒度级别(如令牌或代码段和维度),但除了多样化量度外,评估过程是雷同的。人工注释的基本原理通常来自基准数据集,应满足以下几个尺度:1) 充分性,这意味着基本原理足以让人们做出正确的猜测;2) 紧凑性要求如果删除基本原理中的任何部分,猜测就会发生变革(Mathew et al., 2021)。然后,表明模型负责猜测重要的标志并利用这些标志天生基本原理。以上两种理由将用各种指标来衡量。热门指标根据其丈量范围可分为两类。衡量两个代币级基本原理的指标包罗 Intersection-Over-Union (IOU)、精度和召回率。衡量整体合理性的指标包罗离散案例的 F1 分数和连续或软标志选择案例的精度召回曲线下面积 (AUPRC)(DeYoung et al., 2020)。
评估忠诚度 评估原则和指标提供了一种定量衡量忠诚度的统一方法。由于它们通常是针对特定的表明技能定义的,因此我们只从模型的角度介绍一些常见但普遍的原则,从数据的角度介绍一些指标。
为了老实,表明方法应该遵循几个模型级原则,包罗实现稳定性、输入稳定性、输入敏感性、完备性、极性划一性、猜测划一性和充分性。实现稳定性也称为模型敏感性,意味着只要网络在功能上相称,无论模型架构如何,归因分数都应该保持稳定(Sundararajan et al., 2017)。纵然是基于梯度的方法通常也能很好地满足这个指标;该假设大概没有根据。输入稳定性要求归因方法反映猜测模型对有用输入变革的敏感性。比方,归因分数在输入的不断变革中应保持稳定(Kindermans et al., 2017)。对于仅表明猜测差异的特征,输入敏感度定义归因分数应为非零(Sundararajan et al., 2017)。完整性将敏感性和实现稳定性与微积分中的路径积分(Sundararajan et al., 2017)相结合,这仅实用于可微分方法。极性划一性指出,一些高级特征大概会对最终猜测施加克制效应,这会对表明产生负面影响,应该制止,但大多数环境下不要制止(Liu et al., 2022)。预测划一性限制具有雷同表明的实例应具有雷同的猜测。而充分性要求具有雷同归属的数据纵然有不同的表明也应该具有雷同的相干标签(Dasgupta et al., 2022)。在这类方法中,研究人员旨在通过订定公理和属性来防止某些类型的抵牾表明。然而,每个指标只能解决忠心题目的一个特定方面。在单个框架中提供一体化解决方案非常困难。别的,这些方法仅侧重于通过设计表明方法的属性来制止表明模型的不划一行为。模型的整体性能利用以下指标来衡量。
一个突出的与模型无关的工作通过定量验证猜测和模型基本原理之间的关系来衡量老实度。在测试集上盘算的一些常见指标如下:
・全面性 (COMP):删除排名靠前的重要标志之前和之后原始猜测种别的概率变革,这意味着基本原理的影响力。它被表述为全面性 =  。较高的分数表明基本原理 / 标志的重要性(DeYoung et al., 2020)。
・富足性 (SUFF):提取的基本原理中的部分可以允许模型举行猜测的程度,定义为富足性 = (DeYoung 等人,2020 年)。
・决策翻转 - 代币比例 (DFFOT):为触发决策翻转而移除的代币的均匀比例(Chrysostomou & Aletras,2021 年)。
・决策翻转 - 最具信息量的代币(DFMIT):移除最具影响力的代币引起的决策翻转率(Chrysostomou & Aletras,2021)。
在 ERASER (DeYoung et al., 2020) 中,相干标志被分类为按重要性分数排序的组,以便可以按排名次序屏蔽标志并逐渐观察输出变革。输出变革与掩码标志重要性之间的相干性表现模型正确归因特征重要性的本领。正如 TaSc(Chrysostomou & Aletras,2021)所声称的,较高的 DFMIT 和较低的 DFFOT 是首选,因为重要的代币被准确辨认而且模型更加老实。相比之下,一些工作通过表明中的弱点来衡量老实度,比方捷径学习和特征重要性的极性。Bastings et al. (2022) 通过模型辨认习得捷径的程度来量化老实度。在这种环境下,precision@ k 个标志)和均匀排名(在显著性排名中搜索的均匀深度)等指标表现排名靠前的特征代表全部 Ground Truth 快捷方式的程度。同样,较高的 precison@k 和较低的均值秩表现模型的老实度较高。Liu et al. (2022) 通过执行违规测试来查抄老实度,以确保模型正确反映了特征重要性和特征极性。
无论利用何种详细指标,在评估表明模型时,有两个关键题目仍然存在:1) 模型量化重要特征的本领如何?2) 模型能否有用且正确地从排名靠前的特征中提取尽大概多的有影响力的特征?然而,现有的评估指标往往与雷同的表明模型不划一。比方,DFFOT 排名最高的表明大概是 SUFF 的最差表明(Chan et al., 2022b)。TaSc 表明,基于注意力的重要性指标比非注意力指标更强大,而将注意力作为一种表明仍存在争议(Jain & Wallace,2019)。
别的,这些评估指标不能直策应用于天然语言表明,因为此类表明很少与输入有直接的关系。Atanasova et al. (2023) 为天然语言表明模型提出了两种老实度测试。一种测试是反事实测试,其中通过插入更改猜测的标志,从原始示例构建反事实示例。如果表明中不存在来自插入标志的单词,则表明方法被视为不老实。另一个测试是输入重建测试,它探索表明是否足以做出与原始示例雷同的猜测。给定原始输入和表明自己,每个示例的表明将转换为新的输入。不幸的是,由于这两个测试都大概引入新的语言变体,因此当天生新短语时,它们很难公平地评估老实度。或者,Rev (Chen et al., 2023b) 通过查抄天然语言表明是否支持模型猜测以及来自表明的新信息是否证明模型猜测的合理性,从信息的角度提供评估指标。
5.2 提树模式中的表明评估
近来,GPT-3 和 GPT-4 等 LLM 表现出令人印象深刻的本领,可以为其猜测天生天然语言表明。然而,现在尚不清楚这些表明是否真的有助于人类理解模型的推理过程并推广到新的输入。请注意,评估此类表明的目标和观点(比方,CoT 基本原理)与评估第 5.1 节中介绍的传统表明的目标和观点不同(Golovneva 等人,2022 年;Prasad et al., 2023)。已经开辟了诸如合理性、老实度和稳定性等指标,也称为多样性来评估表明。与传统的表明类似,我们专注于评估合理性和老实性。

评估合理性 近来的一项工作研究了表明是否满足人类的期望,并提出评估天然语言表明的反事实模仿性(Chen et al., 2023d)。也就是说,表明是否有助于人类推断 AI 模型在各种反事实输入上的行为。它们实现了两个指标:模仿普遍性(表明有助于模仿的反事实的多样性)和模仿精度(人类猜测与模型输出相匹配的模仿反事实的分数)。他们发现 GPT-3.5 和 GPT-4 等 LLM 的表明精度低,表明它们误导人类形成不正确的心智模型。本文揭示了当前方法的范围性,而且优化人类偏好(如合理性)大概不敷以提高反事实可模仿性。
评估老实度 这一系列研究表明的老实度,即查抄表明在多大程度上反映了模型猜测背后的现实原因。比方,对近来一项研究的实验分析表明,头脑链表明大概是系统性的不老实的(Turpin et al., 2023)。作者通过在少数镜头提示中重新排序多项选择选项以使答案始终为 “(A)”,从而在模型输入中引入了偏差。然而,GPT-3.5 和 Claude 1.0 等语言模型在其表明中未能承认这些偏见特征的影响。这些模型天生的表明并不能老实地代表真实的决策过程。另一项工作还表明,LLM 陈述的 CoT 推理在某些任务上大概不老实,与更大、更有本领的模型相比,较小的模型往往会产生更老实的表明(Lanham 等人,2023 年)。这些研究强调了对 LLM 表明的老实性的担忧,纵然它们看起来很合理。为了提高对 CoT 的推理老实度,一项初步研究提议通过将题目分解为子题目并分别回答来天生模型推理(Radhakrishnan et al., 2023)。分析表明,分解方法可以靠近 CoT 的性能,同时提高多个指标的老实度。未来需要更多的研究来开辟方法,使模型表明更好地反映猜测的根本原因。
6 研究挑战
在本节中,我们探究了需要 NLP 和可表明的 AI 社区进一步观察的关键研究挑战。
6.1 没有基本领实的表明
LLM 的 Ground Truth 表明通常无法访问。比方,现在没有基准数据集来评估 LLM 捕获的单个组件的全局表明。这带来了两个重要挑战。起首,很难设计出正确反映 LLM 决策过程的表明算法。其次,缺乏基本领实使得评估表明的老实度和保真度成为题目。在没有地面实况引导的环境下,在各种方法中选择符合的表明也具有挑战性。大概的解决方案包罗涉及人工评估和创建合成表明数据集。
6.2 新兴本领的泉源
随着模型规模和训练数据的增长,LLM 表现出令人惊讶的新功能,纵然没有颠末明白训练来执行这些任务。分析这些新兴本领的起源仍然是一个公开的研究挑战,尤其是对于像 ChatGPT 和 Claude 如许的专有模型,它们的架构和训练数据尚未发表。纵然是像 LLaMA 如许的开源 LLM 现在对其新兴技能泉源的可表明性也有限。这可以从模型和数据的角度举行观察。
模型视角 进一步研究基于 Transformer 的模型以分析 LLM 的内部工作原理至关重要。关键的悬而未决的题目包罗: 1) 哪些特定的模型架构导致了 LLM 令人印象深刻的涌现本领?2) 在不同语言任务中实现强大性能所需的最低模型复杂性和规模是多少?连续严格分析和实验
随着 LLM 的规模继续迅速增长,利用基础模型仍然势在必行。推进这些范畴的知识将使 LLM 更加可控和可靠。这可以提供关于在不久的未来是否会有新的新兴本领的提示。
数据视角 除了模型架构之外,训练数据是理解 LLM 涌现本领的另一个重要视角。一些具有代表性的研究题目包罗:1) 海量训练数据的哪些特定子集负责特定的模型猜测,是否有大概找到这些示例?2) 涌现本领是模型训练的效果照旧数据污染题目的人为因素(Blevins et al., 2023)?3) 训练数据的质量或数目对于有用的 LLM 预训练和微调是否更重要?了解训练数据特征与模型效果行为之间的相互作用,将为大型语言模型中涌现本领的泉源提供关键看法。
6.3 比较两种范例
对于天然语言推理 (NLI) 等给定任务,下游微调范例和提树模例可以表现出明显不同的分布内和分布外 (OOD) 性能。这表明这两种方法都依赖于发散的猜测推理。然而,仍然缺乏对微调和提示之间表明的全面比较。需要进一步的研究来更好地分析这些范式之间的表明差异。一些风趣的开放性题目包罗:1) 微调模型和提示模型在用于猜测分布内样本的基本原理方面有何不同?2) 是什么导致了微调和提示之间 OOD 稳健性的差异?我们能否将此追溯到推理的差异?推进这种理解将能够为给定的用例选择正确的范式,并提高跨范式的稳健性。
6.4 LLM 的快捷方式学习
近来的可表明性研究表明,语言模型在举行猜测时通常会走捷径。对于下游微调范式,研究表明,语言模型利用各种数据集伪影和偏差举行天然语言推理任务,比方词汇偏差、重叠偏差、位置偏差和风格偏差(Du et al., 2023)。这会显著影响分布外泛化性能。对于提树模式,近来的一项研究分析了语言模型如何利用更长的上下文(Liu et al., 2023b)。效果表明,当相干信息位于上下文的开头或结尾时,性能最高,而当模型必须在长上下文中心访问相干信息时,性能会变差。这些分析表明,这两种范式都倾向于在某些环境下利用捷径,这凸显了需要更多的研究来解决这个题目并提高泛化本领。
6.5 注意力冗余
近来的研究观察了在大型语言模型中利用可表明性技能举行注意力冗余,用于传统的微调和提树模式(Bian et al., 2021;Bansal et al., 2022)。比方,Bian et al. 利用 BERT-base 分析了不同预训练和微调阶段的注意力冗余 (Bian et al., 2021)。实验分析表明,存在注意力冗余,发现许多注意力头是多余的,可以被修剪,而对下游任务性能的影响很小。同样,Bansal 等人利用 OPT-66B 研究了情境学习场景中的注意力冗余(Bansal et al., 2022)。他们发现注意力头和前馈网络都存在冗余。他们的发现表明,许多注意力头和其他组件是多余的。这为开辟模型压缩技能提供了机会,这些技能可以修剪冗余模块,同时保持下游任务的性能。
6.6 从快照可表明性转向时态分析
尚有一种观点以为,当前的可表明性研究忽视了训练动力学。现有的研究重要是对完全训练的模型的过后表明。缺乏发育观察
在训练过程中,由于未能针对 convergence 所依赖的新兴本领或退化部分,即相变,大概会产生有偏见的表明。别的,对某些特征举行干预无法反映特征之间的交互(Saphra,2022 年)。因此,有一种趋势从静态的快照可表明性分析转变为动态的时态分析。通过查抄训练过程中的几个查抄点,Chen 等人 (2023a) 确定了一个突然的训练前窗口,其中模型得到了句法注意力结构 (SAS),当专门的注意力头专注于单词的句法邻人时,就会发生这种环境,同时训练损失急剧降落。他们还表明,SAS 对于在学习过程中得到语法本领至关重要。受这种观点的启发,开辟分析可以揭示训练过程中更多随意的关系和训练模式,这有助于理解和改进模型性能。
6.7 安全与道德
随着 LLM 的本领变得更强,LLM 中缺乏可表明性会带来重大的道德风险。如果没有可表明性,分析或限制错误信息、偏见和社会操纵等题目的潜在危害就变得具有挑战性。可表明的 AI 技能对于审计这些强大的模型并确保与人类价值观保持划一至关重要。比方,追踪训练数据归因或可视化注意力模式的工具可以揭示嵌入的偏见,比方性别刻板印象(Li et al., 2023a)。别的,探测分类器可以辨认是否存在题目的关联在模型的学习表现中编码。部署 LLM 的研究人员、公司和当局有道德责任优先考虑可表明的 AI。随着 LLM 变得越来越普遍,严格的模型审计、外部监督委员会和透明度法规等举措可以帮助低落风险。比方,随着校准系统的规模不断扩大,人类反馈在管理它们方面变得无能为力,这对这些系统的安全性构成了巨大的挑战。正如 Martin (2023) 所声称的那样,利用可表明性工具作为审计流程的一部分来增补人类反馈大概是一种有用的方法。在扩大模型规模和性能的同时,推进可表明性技能必须始终是优先事项,以确保本领越来越强的 LLM 的安全和合乎道德地发展。
7 结论
在本文中,我们全面概述了 LLM 的可表明性技能。我们总结了基于模型训练范式的局部和全局表明方法。我们还讨论了利用表明来改进模型、评估和关键挑战。未来的重要开辟选择包罗开辟针对不同 LLM 量身定制的表明方法、评估表明的老实度以及提高人类可表明性。随着 LLM 的不断发展,可表明性对于确保这些模型透明、公平和有益将变得非常重要。我们盼望这项观察为这个新兴的研究范畴提供一个有用的构造,并为未来的工作突出未解决的题目。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 2024.2 ACM Explainability for Large Language Models: A Survey