AI大模子企业应用实战(19)-RAG应用框架和剖析器

大号在练葵花宝典  金牌会员 | 2024-6-24 09:33:41 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 906|帖子 906|积分 2718

1 开源剖析和拆分文档

第三方工具去对文件剖析拆分,将文件内容给提取出来,并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。
1.1 优势


  • 支持丰富的文档类型
  • 每种文档多样化选择
  • 与开源框架无缝集成

但有时效果非常差,来内容跟原始的文件内容差异大。
2 PDF格式多样性


复杂多变的文档格式,提高剖析效果十分困难
3 复杂文档格式剖析问题

文档内容质量将很大程度影响最终效果,文档处理过程涉及问题:
3.1 内容不完整

对文档的内容进行提取的时间,可能会发现提取出来的文档它的内容是会被截断的。跨页情势,提取出来它的上下页其实两部分内容就会被截断,导致文档内部分内容丢失,我们去剖析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。
3.2 内容错误

同一页PDF文件可能存在文本、表格、图片等混淆。
PDF剖析过程中,同一页它差别段落其实会也会有差别标准的一些格式。按通用格式去提取剖析就遇到同页差别段落格式不标准情况。
3.3 文档格式

像常见PDF md文件,需要去支持把这些各类型的文档格式的文件都给提取。
3,4 边界场景

代码块另有单元格这些,都是我们去去剖析一个复杂文档格式中会遇到一些问题。
4 PDF内容提取流程


5 为啥剖析文档后需要做知识片断拆分?

5.1 Token限制

<ul>绝大部分开源限制

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表