IT评测·应用市场-qidao123.com技术社区

标题: RAGFlow 知识库分段研究 [打印本页]

作者: 守听    时间: 2025-4-5 01:23
标题: RAGFlow 知识库分段研究
目录
1、文档解析器
1.1、DeepDoc
1.1.1、多格式解析器
1.1.2、 视觉信息处理
1.1.3、 加强处理管线
1.1.4、典范应用场景
1.2、Naive(only PDF纯文本)
1.2.1、 核心概念与特点
2、嵌入模型
2.1、核心推荐模型
2.1.1、BGE系列
2.1.2、m3e-large
2.1.3、ERNIE-Search
2.2、 不同场景下的适配建议
2.3、关键选择维度
2.3.1、语义捕捉能力
2.3.2、多语言支持
2.3.3、资源与成本
3、切片方法
3.1、General
3.2、Q&A
3.3、Resume
3.4、Manual(only PDF)
3.5、Table
3.6、 Paper(only PDF)
3.7、Book
3.8、Laws
3.9、Presentation
3.10、One
3.11、Knowledge Graph
3.12、Tag
4、召回加强RAPTOR策略
4.1、核心机制
4.1.1、树状语义组织
4.1.2、动态语义融合
4.2、查询机制
4.2.1、树层遍历(Tree Traversal)
4.2.2、折叠树检索(Collapsed Tree Retrieval)
4.3、典范应用场景
5、知识图谱
5.1、方法
5.1.1、Light
5.1.2、General 
5.2、实体归一化
5.3、社区陈诉生成

1、文档解析器

1.1、DeepDoc

        DeepDoc 是一款面向 RAG(检索加强生成)场景计划的深度文档解析框架,具备多格式支持、复杂布局识别和布局化输出能力。其核心特性及实现逻辑如下:
1.1.1、多格式解析器


1.1.2、 视觉信息处理


1.1.3、 加强处理管线


1.1.4、典范应用场景


1.2、Naive(only PDF纯文本)

        “Naive”通常指代基础、模块化的技术路径,强调分阶段处理与简单流程计划。以下是其核心要点及关联技术总结:
1.2.1、 核心概念与特点


2、嵌入模型

2.1、核心推荐模型

2.1.1、BGE系列


2.1.2、m3e-large

        纯中文场景下的高性能模型,在中文文本向量化任务中正确率较高,尤其适合短文本密集检索(如法律条款、金融陈诉)‌。
2.1.3、ERNIE-Search

        百度飞桨团队开发的企业级模型,适用于大规模中文知识库,对复杂语义关系和专业领域术语(如医疗、法律)捕捉能力更强‌。
2.2、 不同场景下的适配建议

需求类型‌‌推荐模型‌‌优势‌‌纯中文检索‌m3e-large、BAAI/bge-large-zh高语义匹配精度,支持长文本深度解析‌‌中英混合检索‌BAAI/bge-M3多语言优化,跨语言语义对齐能力突出‌‌轻量级摆设‌text2vec-base-chinese、bge-small-zh低计算资源需求,适合小规模项目快速验证‌‌企业级应用‌ERNIE-Search、multilingual-e5-large高稳固性与扩展性,适配复杂业务逻辑‌ 2.3、关键选择维度

2.3.1、语义捕捉能力


2.3.2、多语言支持

        需处理多语言数据时,优先选择 BAAI/bge-M3 或 E5 系列,避免单一语言模型导致的跨语言语义偏差‌。
2.3.3、资源与成本

       轻量级模型(如 text2vec)显存需求可低至 4GB,适合边缘摆设;BGE-large-zh 需 16GB 显存,适合高精度场景‌。
3、切片方法

3.1、General

       支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML
       General 分块方法作为 RAG 知识库的基准策略,适用于格式同一、语义布局简单的文档处理,其核心代价在于实现低成本快速摆设‌。但在处理复杂场景(如多层级法律条文、跨页表格)时,需结合‌语义分块(Semantic Chunking)‌或‌动态分块(Late Chunking)‌等高级策略以提拔效果‌。
        此方法将简单的方法应用于块文件:

3.2、Q&A

        此块方法支持 excel  csv/txt 文件格式:

未能遵循上述规则的文本行将被忽略,并且 每个问答对将被以为是一个独特的部门。
3.3、Resume

        支持的文件格式为DOCXPDFTXT。简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成布局化数据,以便于搜刮。我们不是将简历分块,而是将简历解析为布局化数据。 作为HR,你可以抛弃所有的简历, 您只需与'RAGFlow'攀谈即可列出所有符合资格的候选人。
3.4、Manual(only PDF)

        仅支持PDF。我们假设手册具有分层部门布局。 我们利用最低的部门标题作为对文档进行切片的枢轴。 因此,同一部门中的图和表不会被分割,并且块大小大概会很大。
3.5、Table

        支持XLSXCSV/TXT格式文件。

3.6、 Paper(only PDF)

        仅支持PDF文件。如果我们的模型运行良好,论文将按其部门进行切片,例如摘要、1.1、1.2等。这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,资助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑镌汰‘topN’的设置。
3.7、Book

        支持的文件格式为DOCXPDFTXT。由于一本书很长,并不是所有部门都有效,如果是 PDF, 请为每本书设置页面范围,以消除负面影响并节省分析计算时间。
3.8、Laws

        支持的文件格式为DOCXPDFTXT。法律文件有非常严酷的书写格式。 我们利用文本特征来检测分割点。chunk的粒度与'ARTICLE'同等,所有上层文本都会包含在chunk中。
3.9、Presentation

        支持的文件格式为PDFPPTX。每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。您上传的所有PPT文件都会利用此方法自动分块,无需为每个PPT文件进行设置。
3.10、One

        支持的文件格式为DOCX、EXCEL、PDF、TXT。对于一个文档,它将被视为一个完备的块,根本不会被分割。如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。
3.11、Knowledge Graph

        支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML。文件分块后,利用分块提取整个文档的知识图谱和思维导图。此方法将简单的方法应用于分块文件: 连续的文本将被切成大约 512 个 token 数的块。接下来,将分块传输到 LLM 以提取知识图谱和思维导图的节点和关系。注意您需要指定的条目类型。
3.12、Tag

        利用“标签”作为分块方法的知识库应该被其他知识库利用,以将标签添加到其块中,对这些块的查询也将带有标签。利用“标签”作为分块方法的知识库不应该参与 RAG 过程。此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。
        此块方法支持XLSXCSV/TXT文件格式。

        在标签列中,标签之间利用英文 逗号不符合上述规则的文本行将被忽略,并且每对文本将被视为一个不同的块。
4、召回加强RAPTOR策略

        RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)是一种通过多条理语义组织优化检索效果的召回加强策略,旨在办理传统 RAG 在复杂查询中的语义割裂与全局关联缺失题目。
4.1、核心机制

4.1.1、树状语义组织


4.1.2、动态语义融合

        通过树状布局在不同抽象层级间创建关联,确保检索时既能捕捉细节信息,又能理解上下文逻辑(如跨段落推理)‌。
4.2、查询机制

4.2.1、树层遍历(Tree Traversal)

        从根节点(高层摘要)逐层向下检索,通过相似度计算选择子节点深入,适合需要徐徐细化信息的复杂查询(如多步调推理任务)‌。
4.2.2、折叠树检索(Collapsed Tree Retrieval)

        将树布局“折叠”为单层,在全局范围内检索所有层级的节点,适合快速获取高相关性的答案(如事实型题目)‌。
4.3、典范应用场景


         RAPTOR 通过树状语义组织与多层级检索机制,显著提拔了 RAG 系统在复杂场景下的召回能力与答案质量,尤其在长文本理解、跨域知识关联等任务中体现突出‌。其与两阶段优化(如粗筛+精排)‌、知识图谱加强‌1等策略结合,可进一步释放 RAG 技术的应用潜力。
5、知识图谱

5.1、方法

5.1.1、Light

        实体和关系提取提示来自 GitHub - HKUDS/LightRAG:“LightRAG:简单快速的检索加强生成”。
5.1.2、General 

        实体和关系提取提示来自 GitHub - microsoft/graphrag:基于图的模块化检索加强生成 (RAG) 系统。
5.2、实体归一化

        解析过程会将具有相同含义的实体归并在一起,从而使知识图谱更简洁、更正确。应归并以下实体:特朗普总统、唐纳德·特朗普、唐纳德·J·特朗普、唐纳德·约翰·特朗普。
5.3、社区陈诉生成

        区块被聚集成条理化的社区,实体和关系通过更高抽象条理将每个部门连接起来。然后,我们利用 LLM 生成每个社区的摘要,称为社区陈诉。更多信息:https://www.microsoft.com/en-us/research/blog/graphrag-improving-global-search-via-dynamic-community-selection/。

 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4