ToB企服应用市场:ToB评测及商务社交产业平台

标题: AI大模子企业应用实战(19)-RAG应用框架和剖析器 [打印本页]

作者: 大号在练葵花宝典    时间: 2024-6-24 09:33
标题: AI大模子企业应用实战(19)-RAG应用框架和剖析器
1 开源剖析和拆分文档

第三方工具去对文件剖析拆分,将文件内容给提取出来,并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。
1.1 优势


但有时效果非常差,来内容跟原始的文件内容差异大。
2 PDF格式多样性


复杂多变的文档格式,提高剖析效果十分困难
3 复杂文档格式剖析问题

文档内容质量将很大程度影响最终效果,文档处理过程涉及问题:
3.1 内容不完整

对文档的内容进行提取的时间,可能会发现提取出来的文档它的内容是会被截断的。跨页情势,提取出来它的上下页其实两部分内容就会被截断,导致文档内部分内容丢失,我们去剖析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。
3.2 内容错误

同一页PDF文件可能存在文本、表格、图片等混淆。
PDF剖析过程中,同一页它差别段落其实会也会有差别标准的一些格式。按通用格式去提取剖析就遇到同页差别段落格式不标准情况。
3.3 文档格式

像常见PDF md文件,需要去支持把这些各类型的文档格式的文件都给提取。
3,4 边界场景

代码块另有单元格这些,都是我们去去剖析一个复杂文档格式中会遇到一些问题。
4 PDF内容提取流程


5 为啥剖析文档后需要做知识片断拆分?

5.1 Token限制

<ul>绝大部分开源限制




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4