深度学习-139-RAG技术之Agentic Chunking分块技术的工作原理及简单实现 ...

打印 上一主题 下一主题

主题 870|帖子 870|积分 2610

1 传统分块的题目

在RAG模型的构建里,文天职块是打头阵且超关键的环节。
(1)就拿常见的递归字符分割来说,它操纵简单,按照固定的token长度一刀切。但这也带来了大麻烦,一个完备的主题常常被拆得七零八落,分到差别文本块中,上下文连贯不起来,就像拼图被打乱了次序,根本没法看。
(2)还有语义分割法,听起来好像聪明点,它根据句子间语义变革来分割。但遇到文档话题频繁切换时,还是会 “翻车”,把相关内容分到差别块,信息又断了。
举个例子:“小明先容了Transformer 架构… (中心插入 5 段其他内容)… 最后他强调,Transformer的焦点是自留意力机制。” 用传统方法处置惩罚,要么把这两句话拆到差别区块,要么被中心内容干扰,导致语义断裂。
(3)但要是人工分块,我们肯定会把它们归到 “模型原理” 这一组。这种跨越文本距离的关联性题目,正是Agentic Chunking(自主分块)要解决的
2 Agentic Chunking的工作原理

Agentic Chunking的焦点头脑是让大语言模型(LLM)自动评估每一句话,并将其

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宝塔山

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表