立山 发表于 2024-7-29 09:54:29

LLMs之Hallucinations :《Extrinsic Hallucinations in LLMs》翻译与解读

LLMs之Hallucinations :《Extrinsic Hallucinations in LLMs》翻译与解读
   导读:
>> 背景和痛点:LLMs中的幻觉指天生不真实、假造(或捏造)、不一致或偶然义的内容。这种现象被称为幻觉(hallucination)。这种现象可以分为两类:上下文幻觉(模子输出应该与上下文中的源内容一致)、外部幻觉(模子输出应该基于预练习数据集)。然而,由于预练习数据集的规模庞大,每次天生时检索和识别辩论非常昂贵。我们盼望模子输出符合外部世界知识,并在不知道事及时承认这一点。文章聚焦于外部幻觉,即模子输出应当基于预练习数据或世界知识。
>> 两个主要挑战:确保LLM输出的符合究竟性,让LLMs在不知道答案时可以或许承认不知。
>> 幻觉的原因:预练习数据标题(过期、缺失或错误信息),在微调过程中引入新知识的困难;
>> 核心思路步骤
(1)、数据预处置处罚:识别和纠正预练习数据中的错误和陈旧信息。
(2)、微调新知识:通过监督微调和强化学习微调(RLHF)引入新知识,但需注意可能引发的幻觉风险。
(3)、幻觉检测与评估:使用多种评估方法(如FactualityPrompt、FActScore、SAFE、FacTool等)检测和量化模子的幻觉。
T1、检索加强评估:
FactualityPrompt:使用Wikipedia文档或句子作为知识底子,通过检测定名实体错误和蕴含比率来评估模子的幻觉。
FActScore:将长形式天生分解为多个原子究竟,并分别验证每个究竟。
SAFE:搜索加强究竟性评估器,使用语言模子作为代理,通过Google搜索验证长形式天生中的每个原子究竟。
FacTool:提取可验证的声明,并通过外部工具验证其真实性。思路步骤包罗提取声明、天生查询、工具查询与证据收集、一致性验证;
● 提取声明:从模子天生内容中提取可验证的声明。
● 天生查询:将每个声明转换为恰当外部工具的查询。
● 工具查询与证据收集:使用外部工具查询并收集证据。
● 一致性验证:基于外部工具的支持水平,为每个声明分配一个究竟性标签​
T2、基于采样的检测:丈量输出不确定性;
SelfCheckGPT:通过多次采样查抄模子响应的一致性,评估其究竟性。
T3、未知知识的校准:
TruthfulQA:测试模子在面对不可答复或未知标题时天生真实响应的能力。
SelfAware:研究模子是否知道自己知道或不知道某些信息。
● 对抗性标题:通过常见误解构建标题,评估模子在无法答复标题时天生真实答案的能力。
● 分类任务:将标题分为可答复和不可答复,丈量模子的F1得分或准确率。
(4)、抗幻觉方法实施:通过RAG、利用链、采样方法和微调技能淘汰模子天生过程中的幻觉。
T1、RAG→ 编辑和归因:RARR,通过检索加强天生,并举行编辑和泉源归因。
T2、行动利用链:通过一系列利用步骤确保天生内容的真实性。
T3、采样方法:通过多次采样和一致性查抄淘汰幻觉。
T4、基于究竟性的微调:通过微调改进模子对究竟性的理解。
T5、基于归因的微调:加强模子天生内容的泉源归因能力。
(5)、检测和淘汰LLMs幻觉的方法,包罗:
T1、外部工具验证:利用外部知识库或工具(如搜索引擎、代码解释器、学术搜索引擎)验证模子天生内容的准确性。
T2、自检机制:如SelfCheckGPT,通过多次采样并检测一致性来发现究竟性错误,无需依靠外部知识库。
● 多次采样:对同一标题举行多次采样天生差异的答案。
● 一致性检测:使用差异的度量标准(如BERTScore,NLI等)检测答案之间的一致性
T3、对未知知识的校准:通过问无法答复的标题来触发模子的幻觉,并评估模子在这种情况下天生真实答案的能力。
>> 优势
● 全面检测:多种评估方法结合使用,可以或许全面检测和量化模子中的幻觉现象。
● 加强究竟性:通过检索加强天生和多次采样,显著进步模子天生内容的究竟性。
● 成本效益:SAFE方法在低落成本的同时,能在长形式天生的究竟性评估中体现优秀。
● 模子优化:通过微调和利用链等技能手段,不仅淘汰幻觉,还能进步模子的团体性能和可靠性。
● 进步模子天生内容的可信度:通过外部工具和自检机制,有用检测和淘汰模子天生的虚伪内容,进步其准确性。
● 加强模子对未知知识的处置处罚能力:通过校准和评估机制,加强模子在处置处罚无法答复的标题时天生真实和可靠答案的能力。
● 提升团体用户体验:淘汰模子天生偶然义或误导性内容,提升用户对模子天生内容的信托度和使用体验。
总结:该文章详细探究了大型语言模子中的幻觉标题,并提出了多种检测和淘汰幻觉的方法,从外部工具验证、自检机制到对未知知识的校准。这些方法不仅进步了模子天生内容的准确性,还加强了模子处置处罚复杂标题和未知知识的能力,从而提升了团体用户体验。


目次
《Extrinsic Hallucinations in LLMs》翻译与解读
导致幻觉的原因
预练习数据标题
微调新知识
幻觉检测
检索加强评估
基于采样的检测
未知知识校准
间接查询
反幻觉方法
RAG → 编辑与归因
行为链
采样方法
为了准确性举行微调
为了归因举行微调
附录:评估基准



《Extrinsic Hallucinations in LLMs》翻译与解读

地址
文章地址:Extrinsic Hallucinations in LLMs | Lil'Log
时间
2024年 7 月7日
作者
Lilian Weng
大规模语言模子中的幻觉通常指模子天生的不真实、捏造、不一致或偶然义的内容。作为一个术语,幻觉在某种程度上被泛化为模子犯错的情况。在这里,我想将幻觉标题缩小到模子输出是捏造的,并且不依靠于提供的上下文或世界知识的情况。
幻觉有两种范例:
上下文幻觉:模子输出应与上下文中的源内容一致。
外在幻觉:模子输出应以预练习数据集为底子。然而,鉴于预练习数据集的规模,每次天生时检索和识别辩论的成本太高。假如我们将预练习数据语料库视为世界知识的代理,我们实质上是试图确保模子输出是符合究竟的,并且可以通过外部世界知识验证。同样重要的是,当模子不知道一个事及时,它应该承认这一点。
本文着重于外在幻觉。为了避免幻觉,大规模语言模子需要 (1) 符合究竟,(2) 在适用时承认不知道答案。

导致幻觉的原因

预练习和微调阶段都会对大型语言模子(LLM)产生幻觉现象的原因。预练习数据由于其泉源广泛和内容庞杂,难免包罗错误信息,导致模子在练习过程中可能错误记忆这些信息。微调阶段,引入新知识固然旨在进步模子的特定能力,但其过程复杂且计算资源有限,使得模子难以可靠地学习新知识。研究发现,模子在学习新知识示例时速度较慢,并且一旦学习了这些示例,其产生幻觉的倾向会增加。总的来说,微调阶段的监督学习固然能更新模子知识,但也伴随着较高的幻觉风险。因此,在更新LLM知识时,需要谨慎平衡已知和未知知识的学习比例,以避免过分引发幻觉。

预练习数据标题


预练习数据标题


[*]数据量庞大:预练习数据集规模巨大,旨在涵盖所有书面形式的世界知识。
[*]数据泉源:主要来自公共互联网,因此难免包罗过期、缺失或错误的信息。
[*]错误记忆:模子可能错误记忆这些信息,由于其练习目标是最大化对数似然。

微调新知识


微调新知识


[*]微调方式:通过监督微调和强化学习人类反馈(RLHF)来进步模子的某些能力,如指令执行。
[*]引入新知识的挑战:在微调阶段引入新知识是难以避免的,但这可能引发模子幻觉。
[*]计算资源:微调通常消耗较少计算资源,因此模子能否通过小规模微调可靠地学习新知识存在争议。
研究发现


[*]学习速度差异:模子学习包罗新知识的微调示例比学习一致性知识的示例速度更慢。
[*]幻觉倾向:一旦模子学会这些新知识示例,其产生幻觉的倾向会增加。
[*]知识分类:在关闭书籍问答数据集上,根据模子输出正确答案的可能性,示例被分类为已知组(HighlyKnown, MaybeKnown, WeaklyKnown)和未知组。
[*]实验结果:

[*]未知示例的学习速度显着慢于已知示例。
[*]最佳开发集性能是在模子学习大多数已知示例但只学习少数未知示例时达到的。
[*]在已知示例中,也许已知示例(MaybeKnown)对团体性能贡献更大。



幻觉检测

检索加强评估

差异的方法和工具被用于检测和评估大型语言模子(LLM)天生内容的究竟性。Lee等人的FactualityPrompt基准数据集和FActScore评估指标,通过定名实体错误率和蕴涵率评估模子天生内容的究竟性,发现较大的模子在这些基准上体现更好。SAFE评估方法则通过多步搜索查询验证原子究竟的真实性,体现出比人工标注更好的性能。FacTool接纳标准的究竟查抄流程,适用于多种任务场景。总的来看,这些方法在差异层面上提供了量化和改进LLM究竟性天生内容的工具和框架,强调了检索辅助方法在淘汰模子幻觉方面的重要性。

究竟性提示评估 (FactualityPrompt)


[*]数据集:由Lee等人(2022年)引入,包罗究竟性和非究竟性提示,使用Wikipedia文档或句子作为知识底子。
[*]评估指标:

[*]定名实体错误率 (NE errors):检测天生内容中的定名实体是否出现在真实文档中。
[*]蕴涵率 (Entailment ratios):使用RoBERTa模子计算天生句子与配对Wikipedia句子的相干性。

[*]结论:较大的模子在这一基准上体现更好,高NE错误率和低蕴涵率表明更高的究竟性,与人工标注结果相干。
2. 究竟性精度 (FActScore)


[*]分解长文本天生:将长文本天生分解为多个原子究竟,分别验证其是否被知识库支持。
[*]验证方法:

[*]非上下文LLM:直接提示模子判断<原子究竟>的真假。
[*]检索→LLM:使用从知识源检索的相干段落作为上下文提示模子。
[*]非参数概率 (NP):使用掩码语言模子计算原子究竟中词的均匀可能性并举行预测。
[*]检索→LLM + NP:结合两种方法。

[*]发现:使用检索辅助模子天生显著淘汰幻觉,稀有实体和文本后部的究竟错误率较高。
3. SAFE评估 (Search-Augmented Factuality Evaluator)


[*]多步骤搜索验证:模子作为代理,通过多步搜索查询验证每个原子究竟的真实性。
[*]性能:实验表明SAFE方法比人工标注效果更好,与人工有72%的一致率,且在不一致时有76%的胜率。
[*]评估指标:F1 @ K,结合精度和召回率。
4. FacTool


[*]究竟查抄流程:包罗声明提取、查询天生、工具查询与证据收集、协议验证。
[*]应用范围:知识问答、代码天生、数学标题办理和科学文献回顾。

基于采样的检测

SelfCheckGPT是一种基于采样的一致性查抄方法,用于检测大型语言模子(LLM)天生内容的究竟性错误。与需要访问token级logprob的灰盒究竟查抄方法差异,SelfCheckGPT无需依靠外部知识库,仅通过对多个样本举行一致性查抄即可实现究竟性检测。它使用多种指标来丈量模子响应与其他随机样本之间的一致性,实验表明在使用GPT-3天生的文本时,提示方法效果最佳。这种方法在无需外部知识库的情况下,提供了一种高效的究竟性错误检测手段。

1. SelfCheckGPT方法


[*]依靠一致性查抄:对多个来自黑盒LLM的样本举行一致性查抄,以检测究竟性错误。
[*]无需外部知识库:与需要访问LLM的token级logprob的灰盒究竟查抄丈量差异,SelfCheckGPT只需要样本,不依靠于外部知识库。
2. 方法概述


[*]使用多种指标:丈量模子响应与其他随机模子样本之间的一致性,包罗BERTScore、NLI(天然语言推理)、提示(询问是/否)等。
[*]实验结果:在使用GPT-3天生的WikiBio段落举行实验时,SelfCheckGPT的提示方法效果最好。

未知知识校准

为了评估和校准大型语言模子(LLM)在面对未知或不可答复标题时的体现,多个基准和方法被提出。TruthfulQA测试模子在面对常见误解或错误计划标题时的真实性,发现较大的模子更容易产生虚伪报告。SelfAware基准则评估模子的自我认知能力,较大的模子在区分可答复和不可答复标题上体现更好。通过多项选择标题的校准实验,发现RLHF微调会低落校准效果,但较高的采样温度会改善校准结果。CalibratedMath测试模子在数学标题上的校准情况,发现口头表达的概率在差异任务难度下校准效果较好。这些研究表明,在处置处罚未知或不可答复标题时,进步模子的校准和自我认知能力对于淘汰幻觉天生至关重要。

TruthfulQA (Lin et al. 2021)


[*]计划:由817个标题构成,涵盖38个主题,包罗健康、法律、金融和政治等,标题根据常见误解或错误计划。
[*]目标:评估模子在面对不确定或未知标题时天生真实答复的能力,避免虚伪报告,包罗拒绝答复或提供不相干的真实信息。
[*]结果:最佳LLM准确率为58%,人类能达到94%。发现较大的模子在此基准上的真实性更低。
2. SelfAware (Yin et al. 2023)


[*]计划:包罗1,032个不可答复标题和2,337个可答复标题,不可答复标题泉源于在线论坛,有人工标注;可答复标题泉源于SQuAD、HotpotQA和TriviaQA。
[*]目标:测试模子的自我认知能力,即是否知道自己知道或不知道的内容。
[*]结果:较大的模子在区分可答复和不可答复标题上体现更好。
3. 不确定性输出的校准 (Kadavath et al. 2022)


[*]实验:在多项选择标题上,评估模子对答案正确性的概率估计是否与实际频率一致。
[*]结果:模子经过RLHF微调后校准效果变差,但较高的采样温度会导致更好的校准结果。较大的模子校准效果更好,标题格式对校准误差有影响。
4. CalibratedMath (Lin et al. 2022)


[*]计划:包罗差异难度的数学标题,测试模子输出概率的校准情况。每个标题需要模子天生数值答案和置信度。
[*]结果:口头表达的概率在差异任务难度或内容分布变化下校准效果较好。50-shot学习几乎和微调版本一样好。

间接查询

Agrawal等人(2023)研究了大型语言模子在天生内容时的虚伪引用标题,提出了两种一致性查抄方法:直接查询和间接查询。直接查询方法通过直接询问引用是否存在来检测幻觉,而间接查询方法则通过询问引用的辅助细节来间接检测幻觉。实验表明,间接查询方法在检测虚伪引用方面效果更好,且较大的模子在淘汰幻觉天生方面体现更优。这些发现对于进步大型语言模子天生内容的真实性具有重要意义。

.研究内容


[*]研究对象:Agrawal等人(2023)研究了大型语言模子(LLM)天生中的虚伪引用标题,包罗伪造的书籍、文章和论文标题。
两种一致性查抄方法


[*]直接查询 (Direct Query):直接询问模子天生的引用是否存在。
[*]间接查询 (Indirect Query):询问天生引用的辅助细节,例如作者是谁。假设对于虚伪引用,多次天生一致的作者信息的可能性较低,而多次天生引用存在的答复一致性的可能性较高。
实验结果


[*]比力结果:间接查询方法效果更好。
[*]模子规模影响:较大的模子更有能力,产生幻觉的概率较低。

反幻觉方法

让我们回顾一组进步llm真实性的方法,从外部知识库的检索,特别采样方法到校准微调。也有通过编辑神经元来淘汰幻觉的可解释性方法,但我们将在这里跳过。我可能会在以后的另一篇文章中讨论可解释性。
RAG → 编辑与归因

检索加强天生 (RAG)


[*]方法:通过检索相干文档并将其作为上下文天生内容。
[*]RARR (Retrofit Attribution using Research and Revision):通过查询天生模子和谷歌搜索,查找相干证据,并编辑天生的文本以确保内容与证据一致,同时尽量保存原始文本。
[*]FAVA (Factuality Verification with Augmented Knowledge):检索相干文档后,编辑天生内容以避免幻觉错误,需要对编辑器模子举行微调。
重新思考检索 (RR)


[*]方法:利用检索的外部知识,但不举行额外编辑,通过天生多个推理路径,选择与检索知识最匹配的答案。
自我反思的检索加强天生 (Self-RAG)


[*]方法:练习模子反思自己的天生过程,输出任务结果和中间反思标记,通过检索多个文档来进步天生质量。
[*]反思标记:

[*]Retrieve:决定是否检索文档。
[*]IsRel:判断提示和检索文档的相干性。
[*]IsSup:判断天生内容是否得到检索文档的支持。
[*]IsUse:评估天生内容的有用性。


行为链

验证链 (Chain-of-Verification, CoVe)


[*]方法:通过模子自身的验证和修正过程来淘汰幻觉错误。
[*]步骤:
[*]初始天生:模子天生初步草稿响应,称为“基线”。
[*]计划验证:基于初始天生,模子计划非模板化的验证标题以举行究竟核查。
[*]执行验证:模子独立答复这些标题,有几种差异的设置:

[*]连合:将验证规划与执行步骤结合,可能会重复幻觉。
[*]两步:分离验证规划和执行步骤,避免初始响应影响。
[*]分解:每个验证标题分别答复。
[*]分解+修正:在分解验证执行后增加“交织查抄”步骤,检测不一致。

[*]终极输出:天生终极修订后的输出,假如发现不一致则举行修正。

[*]观察结果:

[*]指令微调和连贯推理并不能淘汰幻觉。
[*]分解和两步验证方法进步了性能,明白的不一致检测也有所帮助。
[*]短形式验证标题比长形式查询更准确。
[*]自由形式天生的验证标题比开导式方法更好。

复述加强天生 (RECITE)


[*]方法:通过复述作为中间步骤来进步模子天生的究竟性,淘汰幻觉。
[*]步骤:模子首先复述相干信息,然后基于复述天生终极答案。可以通过少样本上下文提示来辅导模子天生复述,然后天生基于复述的答案。该方法可以与自我一致性集成,并扩展到多跳问答。

采样方法

持续更新中……

为了准确性举行微调

持续更新中……

为了归因举行微调

持续更新中……

附录:评估基准

持续更新中……






免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: LLMs之Hallucinations :《Extrinsic Hallucinations in LLMs》翻译与解读