ToB企服应用市场:ToB评测及商务社交产业平台

标题: 医学GraphRAG：通过知识图谱检索加强实现安全医疗大语言模型 - 牛津大学最 [打印本页]

作者: 干翻全岛蛙蛙 时间: 2024-9-6 16:27
标题: 医学GraphRAG：通过知识图谱检索加强实现安全医疗大语言模型 - 牛津大学最
医学GraphRAG：通过知识图谱检索加强实现安全医疗大语言模型 - 牛津大学最新论文

知识图谱科技 2024年08月10日 12:36 上海
Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation

Junde Wu&Jiayuan Zhu &Yunli Qi University of Oxford
arXiv:2408.04187v1 [cs.CV] 08 Aug 2024

摘要

我们引入了一种新型基于图的检索加强天生（RAG）框架，专门为医疗领域设计，称为MedGraphRAG，旨在加强盛型语言模型（LLM）的能力并天生基于证据的效果，从而在处置惩罚私密医疗数据时提高安全性和可靠性。我们的综合流程首先采用混合静态语义方法举行文档分块，明显提高了上下文捕捉能力，相较于传统方法。提取的实体被用于创建一个三层次的层次图结构，将实体与来自医学论文和字典的基础医学知识联系起来。这些实体随后相互连接形成元图，并根据语义相似性举行归并，以开发一个综合的全局图结构。该结构支持正确的信息检索和响应天生。检索过程采用U-retrieve方法，以均衡LLM的环球感知和索引服从。我们的方案通过一项全面的溶解研究举行了验证，比力了文档分块、图构建和信息检索的各种方法。效果不仅表明我们的层次图构建方法在多个医学问答基准测试中持续优于最先进的模型，还确认天生的响应包含源文档，明显提高了医疗LLM在现实应用中的可靠性。
1简介

大型语言模型（LLMs）的快速发展，如OpenAI的ChatGPT和GPT-4，已经明显改变了自然语言处置惩罚的研究，并在一样平常场景中激发了众多AI应用。然而，这些模型在应用于必要专业知识的领域，如金融、法律和医学时，仍旧面临局限性。重要有两个挑战：首先，将练习好的LLMs部署到特定用途上比力复杂，因为它们在处置惩罚极长的上下文时存在困难，且在专业数据集上微调大型模型的成本高昂或不切现实。其次，在医学等领域正确性至关重要，LLMs可能会产生幻觉——看似正确但导致错误结论的输出，这可能是伤害的。别的，它们有时会提供过于简单的答案，而不提供新的见解或发现，这在要求高层次推理以得出正确答案的领域显得不敷。

检索加强天生（RAG）是一种使用特定和私有数据集回答用户查询的技能，无需进一步练习模型。RAG最初设计用于必要在特定文本区域找到须要答案的情况，但有时在从通过共享属性链接的差别信息片段中合成新见解时显得力不从心。别的，它在必要整体明确大数据集或广泛文档中总结语义概念的使命中体现不佳。为了解决这些局限性，提出了图RAG方法。该方法利用LLMs从私有数据会合创建知识图谱，结合图机器学习，在查询处置惩罚过程中加强提示加强。GraphRAG展示了明显的改进，优于从前应用于私有数据集的方法，提供了更高的智能和信息合成能力。

在本文中，我们提出了一种新奇的图RAG方法，用于将LLMs应用于医疗领域，我们称之为医学图RAG（MedRAG）。该技能通过以有据可查的来源引用和清楚的医学术语解释来响应查询，从而提高LLM在医疗领域的体现，加强效果的透明性和可解释性。这种方法涉及三层层次化图构建方法。最初，我们使用用户提供的文档作为我们的顶层来源来提取实体。然后，这些实体与第二层更基本的实体相干联，这些实体之前是从可信的医学书籍和论文中抽象出来的。随后，这些实体连接到第三层——基本医学辞书图，这些辞书提供每个医学术语及其语义关系的具体解释。然后，我们通过基于内容和层次连接来构建最高层次的综合图。这种方法确保知识可以或许追溯到其来源，并且效果在事实上的正确性。

为了响应用户查询，我们实施了一种U检索策略，将自上而下的检索与自下而上的响应天生相结合。该过程首先使用预定义的医学标签结构化查询，并通过图谱以自上而下的方式对其举行索引。系统然后根据这些查询天生响应，从元图中提取节点及其TopK相干节点和关系，并将信息总结成具体的响应。这种技能在环球上下文意识和LLMs固有的上下文限制之间保持了均衡。

我们的医学图RAG提供了内在的源引用，可以加强LLM的透明性、可解释性和可验证性。效果提供了渊源或源基础信息，因为它天生每个响应，并表明答案是基于数据集的。每个陈述都有引用来源，使人类用户可以或许快速正确地将LLM的输出与原始来源材料直接查对。这在医学领域非常有效，因为安全性至关重要，所有推理都应该基于证据。通过使用这种方法，我们构建了一个基于证据的医学LLM，临床大夫可以轻松查抄推理的来源并校准模型响应，以确保LLMs在临床场景中的安全使用。

为了评估我们的医学GraphRAG，我们在几个流行的开放和闭源LLMs上实施了该方法，包罗ChatGPT和LLaMA，在主流医学问答基准上举行测试，如PubMedQA、MedMCQA和USMLE。对于RAG过程，我们提供了一个全面的医学辞书作为基础知识层，UMLS医学知识图作为具体语义关系的基础层，以及一个策划的MedC-K数据集——包罗最新的医学论文和书籍——作为中心数据层，以模仿用户提供的私有数据。我们的实验表明，我们的模型明显提拔了通用LLMs在医学题目上的体现。值得注意的是，它以致超越了许多在医学语料库上经过微调或特别练习的LLMs，仅使用RAG方法而没有额外练习。

我们的贡献如下：
1. 我们在提出一个综合管道以在医学领域中应用GraphRAG 方面处于领先地位
2. 我们开发了独特的图构建和数据检索方法，使得 LLM 可以或许利用全面的私人数据天生基于证据的响应
3. 我们在主流基准上举行了验证实验，凭借各种模型变体到达了最先进的（SOTA）性能
2方法

MedGraphRAG通过一个专门处置惩罚私有医疗数据的医疗GraphRAG加强了大型语言模型（LLMs）。它涉及将医疗文件分段、提取实体，并将这些实体组织成一个三层的层级图结构——从用户提供的文件到基础医疗信息。这些实体形成元图，然后根据内容相似性归并成一个综合的全局图。对于用户查询，LLM从图谱中有效地检索和综合信息，从而提供正确且具有上下文相干性的医疗回应。
2.1医学图谱构建

语义文档分段

大型医疗文档通常包含多个主题或多样化的内容。为了有效处置惩罚这些文档，我们首先将其分段为符合大型语言模型（LLMs）上下文限制的数据块。基于令牌大小或固定字符的传统方法通常无法正确检测主题的微妙变化。因此，这些块可能无法完全捕捉到意图上下文，导致意义丰富性的丧失。

为了提高正确性，我们采用字符分隔与基于主题的分段相结合的混合方法。具体而言，我们利用静态字符（换行符号）来隔离文档中的各个段落。随后，我们应用文本的派生情势举行语义分块。我们的方法包罗使用命题转移，这从原始文本中提取独立语句 Chen et al. (2023)。通过命题转移，每个段落被转化为自给自足的语句。然后，我们对文档举行次序分析，以评估每个命题，决定是与现有块归并还是启动一个新的块。这个决定是通过LLM的零样本方法来做出的。为淘汰次序处置惩罚天生的噪声，我们实施滑动窗口技能，每次处置惩罚五个段落。我们不断调解窗口，通过移除第一个段落并添加下一个段落，保持对主题一致性的关注。我们设置一个硬阈值，最长的块不能凌驾LLM的上下文长度限制。在对文档举行分块后，我们在每个数据块的个体上构建图谱。

元素提取

然后，我们从每个源文本块中识别和提取图节点实例。这是通过使用一个旨在识别文本中所有相干实体的LLM提示来完成的。对于每个实体，LLM被提示输出名称、类型和形貌。名称可以是文档中的确切文本，也可以是医疗语境中常用的派生术语，经过仔细选择以反映适合后续处置惩罚的专业医学术语。类型是由LLM从预定义表中选择的，形貌是LLM天生的实体解释，结合文档中的上下文。为了确保模型的有效性，我们提供了一些示例以引导LLM天生所需的输出。

对于每个实体数据结构，我们包含一个独特ID以追踪其源文档和段落。这个标识符对于从源中检索信息至关重要，可以或许在后期天生基于证据的响应。

为了提高提取的质量，淘汰噪声和方差，我们重复提取过程多次。这种迭代方法鼓励LLM检测任何可能最初被忽略的实体。继承或停止重复过程的决定也是由LLM自身决定的。

层级链接

医学是一个专业领域，其特性是使用正确的术语系统并建立在许多既定真理的基础上，如疾病的特定症状或药物的副作用。在这个领域，LLM不能扭曲、修改或添加创造性或随机元素到数据中，这与它们在其他约束较少的上下文中的应用有所差别。

认识到这一点，我们在医学领域内开发了一种独特的结构，将每个实体链接到基础医学知识和术语。该方法旨在为每个实体概念提供可靠来源和深刻定义，从而提高响应的真实性，并淘汰在医学应用LLM时常见的幻觉征象。

具体而言，我们构建了一个三级RAG数据结构，以开发一个综合医学图谱。

第一层由用户提供的文档构成，比方来自特定医院的高度秘密医疗陈诉。在如前所述从这些文档中提取实体后，我们将它们链接到一个更基础的、被广泛接受的信息层面。
第二层使用医学教科书和学术文章构建。我们在接收真实用户文档之前，使用先前概述的相同方法从这些医学来源预构建一个图。第一层的实体根据LLMs检测到的相干性与第二层中相应的实体相链接。
第二层图的实体然后与第三层链接，第三层包罗几个明确定义的医学术语及其知识关系。这些基础信息来自可靠资源，如统一医学语言系统（UMLS），该系统整合了各种健康和生物医学词汇及其语义关系。对于每个实体，我们将其名称的文本嵌入与UMLS中的医学词汇举行比力，选择余弦相似度低于指定阈值的词汇。每个链接的词汇还进一步与其在UMLS中的专业定义和关系相干联，这些关系被转换为简单文本，如 Wu et al. (2023) 中所示。

关系链接

然后，我们指示LLM识别所有明确相干实体之间的关系。这个决定是基于关于每个实体的综合信息，包罗其名称、形貌、定义和相干的基础医学知识。识别的关系指定了源实体和目标实体，提供了它们关系的形貌，并包罗一个分数指示该关系的亲密水平。为了在评估关系距离时保持秩序和正确性，我们提示LLM从预定义的形貌符列表中举行选择——非常相干、相干、中等、不相干、非常不相干。在举行此分析后，我们为每个数据块天生一个加权有向图。这些图作为我们系统的基本构建块，被称为元图。

图1：MedGraphRAG框架
标签天生与图谱归并

在构建元图之后，我们的下一步是扫描每个数据块，以开发一个将所有元图连接在一起的环球图。这些归并后的元图中的节点将基于我们在最后一段中使用的链接规则相互连接。为此，我们计算每对元图之间的距离，并依次快要来的元图归并成更大的实体。为了实现高效归并，我们使用LLM根据预定义的医疗种别（如症状、病史、身体功能和药物）总结每个元图的内容。LLM为每个种别天生一个摘要，来源于元图的内容，从而形成一个简便形貌其重要主题的标签列表。

通过使用这些标签，LLM计算两个元图之间的相似性。相似性最高的元图会被考虑归并。归并后的图成为一个新图，但保留其原始的元图和标签，以便于后续的索引。随后，为新图天生新的摘要标签信息，并重新计算其与其他图的相似性，以便进一步归并的可能性。此过程可以重复，直到只剩下一个环球图。然而，随着摘要标签信息的积累，它会失去细节，体现出归并效果与服从之间的衡量。现实上，我们将此过程限制在24次迭代以内，以防止过度丧失细节。

2.2从图谱检索

在构建图谱之后，LLM通过一种我们称之为U-retrieve的策略高效地检索信息以响应用户查询。我们首天赋生摘要标签形貌，雷同于上一阶段，并利用这些形貌通过自上而下的匹配过程来识别最相干的图。这一过程始于较大的图，逐渐索引到它所包含的小图。这个匹配过程会重复举行，直到我们到达元图层并检索多个相干实体。随后，我们网络与这些激活实体及其TopK相干实体相干的所有相干内容。这包罗实体本身的内容、其相干基础医学知识、与其他实体的相干性及关系，以及任何链接实体的内容。

一旦识别出相干内容，LLM会被提示使用这些信息天生中心响应，以文本情势出现。这个中心响应会被保留，并与更高层图的摘要标签信息结合，以形成更具体或更精炼的响应。LLM以自下而上的方式重复这一响应天生过程，直到到达最高层，在沿着轨迹扫描所有已索引图之后天生终极响应。这种方法使LLM可以或许全面了解，因为它与图中的所有数据举行交互，同时通过以摘要情势访问较不相干的数据保持高效。
3实验

3.1数据集

3.1.1RAG数据

在我们的RAG数据结构中，我们设计了三个差别的数据级别，每个级别在实践中发挥差别的作用。顶层数据包罗私人的用户信息，比方医院的医疗陈诉，这些信息是秘密的，不得共享或公开。这些数据是用户特定的，并且在现实使用LLM时，更新或变更的频率最高。中层数据包罗最新的、经过同行评审的、可信的医学书籍和论文。这一层为用户提供最新的医学希望和知识，确保他们不会错过任何前沿发现。虽然这些资源可以设置为差别用户的默认数据，但用户或管理员也可以定期更新，以保持及时性。此类数据的更新频率为中等，通常为每年一次。底层数据则包罗定义医学术语及其语义关系的数据，重要来源于成熟的词汇表。这些数据是最具权威性和严厉性的，应该设置为每个打算使用医学LLM的用户的默认数据。此类数据的更新频率最低，约莫每五年或更长时间更新一次。

顶层数据

我们采用MIMIC-IV这个公开可用的电子健康记录数据集作为我们的重要数据集。该数据集来源于贝斯以色列迪肯尼斯医疗中心，涵盖了从2008年到2019年的患者入院记录。MIMIC-IV旨在促进研究和教育活动，涵盖了广泛的数据，包罗患者测量、诊断、程序、治疗和匿名临床记录。该数据集是医院和麻省理工学院之间合作努力的结果，经过经心网络、处置惩罚和去标识化，以遵照隐私标准。它被结构化为三个差别的模块——医院模块、重症监护模块和临床记录模块，专门设计以满足各种研究需求。

中层数据

我们利用MedC-K这个庞大的医学专用语料库作为我们的中层数据来源。该语料库包罗480万篇生物医学学术论文和3万本教科书。它包含Lo等人（2020年）发布的S2ORC数据集，其中有8110万篇英文学术论文。从这个庞大的集合中，我们提取了来自PubMed Central的480万篇与生物医学研究相干的论文，总计凌驾750亿个令牌，涵盖了先进的医学知识。别的，我们还从各大图书馆和出书社策划了一批3万本医学教科书。在经过彻底的清洗和去重处置惩罚后，这个集合提供了约莫40亿个令牌的基本医学知识。

底层数据

我们利用UMLS数据集作为我们的基础底层数据。统一医学语言系统（UMLS）由美国国家医学图书馆开发，是一个广泛的数据集，将多种医学词汇统一起来，以加强健康信息系统的互操纵性。它由三个重要构成部分构成：Metathesaurus，它汇集了200多种医学词汇，包罗SNOMED CT和ICD-10；语义网络，它组织医学概念并划分它们之间的相互关系；以及SPECIALIST词汇表，它通过提供具体的语言学见解来帮助自然语言处置惩罚。UMLS对于促进电子健康记录整合和临床决策支持等使命至关重要，从而改善医学数据的管理和明确。

3.1.2测试数据

PubMedQA

由Jin等人在2019年开发，PubMedQA是一个来自PubMed摘要的生物医学问答数据集。该数据集重要通过是、否或可能等选项的选择题格式来解决研究题目。它包含三个差别的部分：PQA-L，包罗1,000个人工标记的对用于测试；PQA-U，由61.2k个未标记的对构成，未被使用；以及PQA-A，包含211.3k个人工天生的对。
MedMCQA
由Pal、Umapathi等人在2022年推出，MedMCQA是一个从印度医学学院入学考试（AIIMS和NEET-PG）练习和以往考试中订定的多项选择题数据集。该数据集分为一个包含182,822个题目的练习集和一个包含4,183个题目的测试集，每个题目提供四个可能的答案。该数据集为医学学校候选人的知识测试提供了重要资源。
USMLE
由Jin、Pan等人在2021年创建，USMLE数据集包罗来自美国医学执照考试的多项选择题，旨在评估医学专业职员的执业认证准备情况。该数据集在多语言覆盖方面独特，提供英语、简体中文和繁体中文的题目。为了本形貌的目的，仅考虑英语部分，包罗10,178 + 1,273 + 1,273个数据。

3.2LLM models大模型基座

LLAMA2
在原始LLAMA数据集的基础上，LLAMA2通过包含更多多样化和复杂的语言使命扩展了评估框架，可能解决了初始版本中识别的局限性和空白。只管LLAMA2的具体细节可能具有假设或推测的性质，但人们可以期待它将继承关注强盛、全面的语言分析，美满工具和方法，以更好地衡量语言明确和天生中的渺小差别。

LLAMA3
LLAMA3是LLAMA系列大型语言模型的最新版本，旨在提高自然语言明确和天生的能力。在其前身LLAMA和LLAMA2的成功基础上，LLAMA3融合了更复杂的算法和更广泛的数据集，以加强其在各种语言使命中的体现。

GPT-4
由OpenAI开发的ChatGPT-4是天生预练习变更器模型的一个版本，已经在多样化的互联网文本上举行了练习。作为一个更先进的版本，ChatGPT-4在明确和天生类人文本的能力上相较前代模型有了改进，使其可以或许举行更加连贯和与上下文相干的对话。该模型旨在执行广泛的使命，包罗但不限于翻译、问答和内容天生，展示了在处置惩罚复杂对话场景和渺小语言差别方面的明显进步。

Gemini
谷歌的Gemini是一个尖端语言模型，旨在加强对话AI系统的能力。作为谷歌在自然语言处置惩罚方面持续努力的一部分，Gemini旨在提供比以往模型更过细和上下文感知的互动。该模型利用深度学习技能明确和天生类人响应，使其实用于虚拟助手、客户支持和互动应用等广泛的场景。
3.3效果

3.3.1医学GraphRAG效果

首先，我们举行了实验，以评估我们的医疗GraphRAG对各种大型语言模型的影响，效果如表1所示。数据表明，我们的MedGraphRAG明显提拔了大型语言模型在医学基准测试上的体现。这一改善归因于zero-shot RAG的实施，这比微调或使用适配器更具成本效益、更快且更方便。值得注意的是，MedGraphRAG在较小的LLM上，如LLaMA2-13B和LLaMA3-8B，产生了更明显的改进，这些模型在这些基准测试中通常体现较差，从而扩大了其实用范围。MedGraphRAG还明显提拔了更强盛的封闭源LLM的体现，如GPT和LLaMA3-70B，帮助它们在多个基准测试中实现了先进（SOTA）的效果。这些效果超越了人类专家的正确性，展示了人工智能提拔临床工作流程的强盛潜力。

图2：与SOTA医疗LLM模型在MedQA基准上的比力

表1：MedGraphRAG在各种LLM上的改善情况
3.3.2基于循证的回复

感谢我们 MedGraphRAG 中的图形链接机制，我们可以促使大型语言模型天生基于证据的复杂医学题目的回答，从而加强安全性和可解释性。如图3所示，我们比力了仅由 GPT-4 天生的回答和由 MedGraphRAG 加强的回答，针对一个具有挑战性的医学诊断题目。在这种情况下，患者体现出与阿尔茨海默病常见的症状——逐渐加重的健忘以及偶尔的突然狐疑和言语障碍。然而，经验丰富的人类专家的仔细分析会将这种情况识别为血管性痴呆。MedGraphRAG 加强的回答不仅正确地将血管性痴呆与阿尔茨海默病区分开来，还提供了具体的解释，并引证了真实的资料。这确保了每个主张都可以验证，使信息对临床大夫而言值得信赖。别的，回答中还包含了医学术语的简化解释，使非医学背景的用户也易于明确。这种基于证据、用户友好的方法在安全至上的临床实践中至关重要。

3.3.3与SOTA医疗LLM模型比力

我们还评估了MedGraphRAG在这些基准上与一系列之前的最先进模型的体现，包罗经过广泛微调的模型Gu等（2022）Yasunaga等（2022a）Yasunaga等（2022b）Bolton等（2022）Singhal等（2022）Singhal等（2023）Wu等（2023）以及未经过微调的模型Nori等（2023）OpenAI（2023a）OpenAI（2023b）在MedQA基准上的体现。效果如图2所示，应用于强盛的GPT-4 LLM时，我们的MedGraphRAG比之前的最先进提示模型Medprompt Nori等（2023）高出明显的1.1%。纵然与这些医学数据集上的强微调方法举行比力，MedGraphRAG也超越了所有，并实现了最先进。这个杰出的体现源于充分利用了强盛的GPT-4模型的固有能力。这进一步凸显了我们未经过微调的MedGraphRAG方法的上风：它继承了闭源模型的强盛能力，并超越了许多必要昂贵和详尽微调的模型。
3.3.4溶解研究

我们举行了全面的溶解研究，以验证我们提出的模块的有效性，效果如表2所示。本研究比力了多种文档切分、层次图构建和信息检索的方法。具体而言，在文档切分方面，我们评估了我们的混合静态-语义方法与纯静态方法的对比。在层次图构建方面，我们将我们的方法与LangChain中使用的基本构建方法举行了对比。在信息检索方面，我们将基于摘要的检索方法Edge et al. (2024)与我们的U-retrieve方法举行了比力。这些方法是在先条件到的三个问答基准上举行评估的。

效果如表所示，表明我们的混合语义方法在性能上明显优于原始模型，强调了复杂数据切分在所有RAG管道中的重要性。当将基本图构建方法与我们提出的层次方法举行比力时，显然构建图形可以提高RAG性能。别的，我们的层次图构建技能带来了最明显的改进，超越了大多数先进（SOTA）方法的性能。别的，用我们的U-retrieve方法替换总结检索进一步提拔了性能，证实了U-retrieve在提高检索正确性和相干性方面的有效性。

图3：示例案例展示了MedGraphRAG天生基于证据的响应，配有可靠的引用和术语解释。

表2：对MedGraphRAG的溶解研究
4总结

综上所述，本文介绍了MedGraphRAG，一个新奇的基于图谱的检索加强天生RAG框架。该框架加强了大语言模型LLMs的能力，我们的方法结合了先进的文档分块和分层图结构，明显提高了数据组织和检索正确性。我们的溶解研究确认了在医疗问答基准上相较于最先进模型的优越体现，并提供了对医疗应用至关重要的可信且源链接的回应。未来，我们旨在扩展该框架以包罗更多样化的数据集并探索其在实时临床环境中的潜力
References

Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation (arxiv.org)
https://arxiv.org/html/2408.04187v1
“大模型+知识图谱”双轮驱动的医药数智化转型新范式-OpenKG TOC专家谈
重磅 - 微软官宣正式在GitHub开源GraphRAG
论文快读| HeCiX-KG：将知识图谱和大型语言模型整合应用于生物医学研究
KRAGEN：使用知识图谱加强的RAG解决生物医学大型语言模型题目
消除幻觉的知识图谱加强医学大模型 - "Nature"NPJ数字医学杂志

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)