多跳问答中的语言模型知识编辑增强
人工智能咨询培训老师叶梓 转载标明出处大模型在整合及时知识更新方面经常遇到困难,这大概导致答复过期或禁绝确。尤其当处置惩罚多跳问题时,挑战进一步增加,由于这类问题需要模型更新和整合与问题相关的多个知识点。图 1为传统基于相似度的搜索失败案例。
https://i-blog.csdnimg.cn/direct/d4e558111d4645feb719de7bc2872895.png
为了办理这一问题,来自美国佐治亚大学、纽约大学、莱斯大学和北卡罗来纳州立大学的研究人员提出了一种名为“检索增强型模型编辑(RAE)”的新框架。RAE框架专为多跳问答设计,通过检索编辑后的事实,然后通过上下文学习来美满语言模型。
RAE框架
RAE框架针对大模型在多跳问答任务中的知识更新提出了一种新的办理方案。该框架通过两个关键步骤来实现对大模型的知识编辑:起首是通过检索与问题相关的编辑事实,然后利用这些事实通过上下文学习的方式对模型进行编辑。
https://i-blog.csdnimg.cn/direct/1e20c5f6f21e4853857a0177eb4b645b.png
图2为RAE框架的团体流程。起首,通过知识插入/编辑步骤,构建了以“Misery”为中心的子图。然后,利用基于互信息的检索策略,检索到与“Misery”相关的编辑事实。接下来,通过冗余知识剪枝步骤,筛选出最相关的事实。末了,在上下文学习编辑阶段,利用编辑模板和筛选出的事实,对模型进行编辑,以生成正确的答案。
检索编辑后的事实
检索步骤的核心是找到与输入问题直接相关的编辑后事实。这是通过一个基于互信息最大化的检索策略来实现的,该策略优于传统的基于文本相似度的检索方法。在传统的相似度检索中,仅依靠问题和事实之间的文本相似度来选择相关事实,这在多跳问答中大概不够正确,由于多跳问答需要明确问题中蕴含的复杂关系链。
利用外部知识图谱
为了增强检索过程,RAE框架引入了外部知识图谱(如图2所示),如WikiData。这一步骤涉及将编辑过的事实整合到外部知识图谱中,创建一个新的、包含编辑和未编辑事实的增强图G*。这个增强图不仅增补了编辑事实库,而且通过毗连差别的实体,提供了额外的事实知识,有助于大模型输出正确的答案。
互信息最大化的检索目的
RAE框架定义了一个优化目的,即在给定问题的环境下,最大化检索子图和问题集之间的互信息。互信息量化了问题和检索子图之间的共享信息量,最大化互信息意味着检索到的子图与问题在信息上高度相关。通过最小化条件熵来实现互信息的最大化,这有助于选择最相关的子图以答复输入问题。
概率估计
为了计算互信息,RAE框架利用了大模型的下一词猜测能力。通过思量知识图谱中的事实链,RAE框架可以迭代地选择最相关的事实。这一过程涉及到对每个候选事实的猜测概率进行估计,选择那些能够最大化猜测概率的事实,从而构建出最能答复问题的事实链。
冗余事实剪枝
检索到的子图大概包含与问题答复无关的冗余信息。为了减少这种冗余,RAE框架接纳了基于编辑不确定性的剪枝方法。编辑不确定性通过计算模型输出的香农熵来量化,反映了模型对其输出答案的信心水平。通过构建差别的事实集候选,并计算每个候选集的输出熵,选择使熵最小的事实集作为终极的编辑事实,从而减少了冗余信息的影响。图3展示了差别事实子集输入时模型编辑不确定性的分布。
https://i-blog.csdnimg.cn/direct/ed5221f1fde945d8afbddfac9bad9cfa.png
RAE框架的理论底子是上下文学习,即当提示文本和输入查询之间存在共享的潜在概念时,可以有用地触发大模型的上下文学习能力。RAE框架通过最大化互信息来选择与问题最相关的事实,从而有用地激活了大模型的上下文学习能力。
想要把握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有用利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地点:https://edu.csdn.net/course/detail/39987
实行
实行旨在评估RAE框架在多跳问答中编辑大模型输出的有用性,并与其他方法进行比力。实行设计答复了以下几个核心问题:
Q1: RAE在编辑大模型输出上的效果如何?
Q2: 本检索策略与其他检索方法相比表现如何?
Q3: 本剪枝技能是否能够从检索到的事实中移除冗余信息?
Q4: RAE是否适用于专有大模型?
实行评估了多种差别规模和系列的大模型,包括GPT-2 (1.5B)、GPT-J (6B)、Falcon (7B)、Vicuna (7B)和Llama2-chat (7B)。这些模型中,GPT-2、GPT-J和Falcon是没有指令调整的预训练模型,而Vicuna是Llama1的变体,Llama2-chat是Llama2的指令调整版本。
与RAE框架比力的编辑方法包括:
[*]模型权重更新方法:通过语言建模编辑过的知识来微调模型权重。
[*]辅助模型方法:训练额外的语言模型来存储更新的知识。
[*]RAG底子方法:如Mello和DeepEdit,接纳多轮对话编辑模型输出。
还思量了一种先辈的知识检索方法——子图检索器(SR)。
实行在MQUAKE-CF和MQUAKE-T数据集上进行,这些数据集包含差别跳数的问题编辑实例。实行利用多跳编辑正确率作为评估指标。
https://i-blog.csdnimg.cn/direct/1fbd159383d149d39a9a3c4393409da7.png
表2展示了RAE框架在差别数据集和大模型上编辑性能的评估结果。RAE框架在全部环境下均优于其他方法,显示出其在处置惩罚数千个编辑时的良好性能。这主要得益于RAE的新奇的基于互信息的检索目的和有用的剪枝策略。
为了答复Q2,实行评估了基于互信息的检索方法在多跳问答任务中的有用性。
实行包括了三种基于嵌入的方法和一种基于概率的方法:
[*]基于嵌入的方法:利用嵌入检索来获取相关语料。
[*]基于概率的方法:即子图检索器,它检索最大化条件概率的子图。
实行从MQUAKE-CF数据集中选择了每种2、3和4跳问题的300个案例,并报告了检索精度分数。
结果显示RAE框架在多跳事实提取中表现精彩,并且在较小的语言模型如GPT-2上也取得了成功,显示出强盛的泛化能力。相比之下,传统的基于嵌入的方法在多跳事实检索挑战中表现不佳。Mello在将多跳问题分解为单跳问题方面表现出肯定的有用性,但随着跳数的增加,性能显著下降。
为了答复Q3,实行验证了所提出的剪枝策略对多跳编辑任务的益处。实行结果显示,剪枝技能显著提高了模型编辑的性能。
为了答复Q4,研究者们将RAE框架应用于只能通过API访问的专有大模型,如ChatGPT。实行结果表明,RAE框架在编辑这些专有模型方面非常有用,并且与Mello相比,成本大大降低。
实行还评估了差别编辑批次大小的编辑性能。结果显示,RAE框架的正确性在差别编辑实例中保持稳固,而Mello的正确性随着实例的增加显著下降。
https://i-blog.csdnimg.cn/direct/1e3b6c747c814b5a89df02829a88d2e4.png
图6展示了M-CF数据集中的两个案例,说明了在知识图谱上的检索过程和检索到的事实的剪枝过程。图中的红线、黑线和虚线分别代表知识图谱中终极的、候选的和扬弃的路径,反映了检索设计中的决议过程。
通过这些实行,研究者们证实了RAE框架在多跳问答中编辑大模型输出的有用性和良好性。
论文链接:https://arxiv.org/pdf/2403.19631
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]