1 开源剖析和拆分文档
第三方工具去对文件剖析拆分,将文件内容给提取出来,并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。
1.1 优势
- 支持丰富的文档类型
- 每种文档多样化选择
- 与开源框架无缝集成
但有时效果非常差,来内容跟原始的文件内容差异大。
2 PDF格式多样性
复杂多变的文档格式,提高剖析效果十分困难。
3 复杂文档格式剖析问题
文档内容质量将很大程度影响最终效果,文档处理过程涉及问题:
3.1 内容不完整
对文档的内容进行提取的时间,可能会发现提取出来的文档它的内容是会被截断的。跨页情势,提取出来它的上下页其实两部分内容就会被截断,导致文档内部分内容丢失,我们去剖析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。
3.2 内容错误
同一页PDF文件可能存在文本、表格、图片等混淆。
PDF剖析过程中,同一页它差别段落其实会也会有差别标准的一些格式。按通用格式去提取剖析就遇到同页差别段落格式不标准情况。
3.3 文档格式
像常见PDF md文件,需要去支持把这些各类型的文档格式的文件都给提取。
3,4 边界场景
代码块另有单元格这些,都是我们去去剖析一个复杂文档格式中会遇到一些问题。
4 PDF内容提取流程
5 为啥剖析文档后需要做知识片断拆分?
5.1 Token限制
<ul>绝大部分开源限制 |