AI大模子企业应用实战(19)-RAG应用框架和剖析器

大号在练葵花宝典 · 2024-6-24 09:33:41

1 开源剖析和拆分文档

第三方工具去对文件剖析拆分，将文件内容给提取出来，并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。
1.1 优势

支持丰富的文档类型
每种文档多样化选择
与开源框架无缝集成

但有时效果非常差，来内容跟原始的文件内容差异大。
2 PDF格式多样性

复杂多变的文档格式，提高剖析效果十分困难。
3 复杂文档格式剖析问题

文档内容质量将很大程度影响最终效果，文档处理过程涉及问题：
3.1 内容不完整

对文档的内容进行提取的时间，可能会发现提取出来的文档它的内容是会被截断的。跨页情势，提取出来它的上下页其实两部分内容就会被截断，导致文档内部分内容丢失，我们去剖析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。
3.2 内容错误

同一页PDF文件可能存在文本、表格、图片等混淆。
PDF剖析过程中，同一页它差别段落其实会也会有差别标准的一些格式。按通用格式去提取剖析就遇到同页差别段落格式不标准情况。
3.3 文档格式

像常见PDF md文件，需要去支持把这些各类型的文档格式的文件都给提取。
3,4 边界场景

代码块另有单元格这些，都是我们去去剖析一个复杂文档格式中会遇到一些问题。
4 PDF内容提取流程

5 为啥剖析文档后需要做知识片断拆分？

5.1 Token限制

<ul>绝大部分开源限制

		自动登录	找回密码
密码			立即注册

AI大模子企业应用实战(19)-RAG应用框架和剖析器

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块