大型语言模型(LLMs)的快速发展,如OpenAI的ChatGPT OpenAI (2023a)和GPT-4 OpenAI (2023b),明显改变了自然语言处置惩罚领域的研究,并在一样平常场景中引发了浩繁AI应用。然而,这些模型在应用于需要专业知识的领域,如金融、法律和医学时,仍面临限制。主要有两个挑战:首先,针对特定用途部署练习过的LLM非常复杂,主要是由于它们在处置惩罚极长上下文时的困难,以及在专业数据集上微调大型模型的高成本或不切现实。其次,在医学等精确要求至关紧张的领域,LLM大概会产生幻觉——看似准确但导致错误结论的输出,这大概是危险的。别的,它们偶然提供过于简化的答案,而没有提供新的看法或发现,这在需要高层次推理以得出精确答案的领域中显得不敷。
检索增强生成(RAG)Lewis et al. (2021)是一种利用特定和私有数据集回答用户查询的技术,且不需要对模型进行进一步的练习。最初设计用于在特定文本区域内找到须要答案的场景,RAG偶然在从通过共享属性链接的不同信息片段合成新看法方面体现不佳。别的,在需要对大数据集或大型文档中总结语义概念进行团体理解的任务中,它也体现不佳。为相识决这些限制,图RAG Hu et al. (2024)方法被引入。这种方法利用LLM从私有数据集中创建知识图谱,与图机器学习相结合,在查询处置惩罚期间增强提示增强。GraphRAG显示出明显的改进,逾越了之前应用于私有数据集的方法,提供了更高的智能和信息合成能力。
在本文中,我们介绍了一种新颖的图RAG方法,用于将LLM应用于医疗领域,我们称之为医疗图RAG(MedRAG)。该技术通过响应查询并提供实证来源引用和医学术语的清晰解释来改善LLM在医疗领域的体现,提高效果的透明度和可解释性。这种方法涉及三层的层次化图构建方法。最初,我们将用户提供的文档作为顶层来源提取实体。这些实体随后与第二层毗连,该层由从可信医疗书籍和论文中提取的更底子的实体组成。随后,这些实体毗连到第三层——底子医学字典图——提供每个医学术语的具体解释及其语义关系。然后,我们通过根据内容和层次毗连链接实体,构建最高层次的综合图。这种方法确保知识可以追溯至其来源,并且效果在究竟上的准确性。
为了响应用户查询,我们实行了一种U检索策略,结合自上而下的检索与自下而上的响应生成。该过程开始时利用预定义的医学标签布局化查询,并通过图进行自上而下的索引。系统随后基于这些查询生成响应,从元图中提取节点及其TopK相干节点和关系,并将信息总结为具体响应。这种技术在全球上下文意识和LLM内在的上下文限制之间保持平衡。
我们的医疗图RAG提供了内在的源引用,可以增强LLM的透明度、可解释性和可验证性。效果提供了来源或源底子信息,由于它生成每个响应,并表明答案是基于数据集的。对于每个声明,引用源的即刻可用性使得人类用户可以或许快速且准确地根据原始源质料审核LLM的输出。在医学领域,这种方法非常有用,由于安全性至关紧张,每个推理应是基于证据的。通过利用这种方法,我们构建了基于证据的医疗LLM,使临床医生可以或许轻松检查推理的来源并校准模型响应,以确保在临床场景中安全利用 llm \operatorname{llm} llm 。
为了评估我们的医疗图RAG,我们在多个盛行的开源和闭源LLM上实行了该方法,包括ChatGPT OpenAl (2023a)和LLaMA Touvron et al. (2023),并在主流医疗问答基准上进行了测试,如PubMedQA Jin et al. (2019)、MedMCQA Pal et al. (2022)和USMLE Kung et al. (2023)。对于RAG过程,我们提供了一个全面的医学字典作为底子知识层,一个UMLS医学知识图Lindberg et al. (1993)作为具体语义关系的底子层,以及一个筹谋的MedC- K \mathrm{K} K 数据集Wu et al. (2023)——该数据集包罗最新的医学论文和书籍——作为模拟用户提供的私有数据的中心数据层。我们的实验表明,我们的模型明显增强了一般用途LLM在医学题目上的体现。值得注意的是,它甚至在医学语料库上的体现逾越了许多经过微调或特殊练习的LLM,仅利用RAG方法而不需额外练习。
我们的贡献如下: