langchain 模子加载HuggingFaceEmbeddings、文本切割RecursiveCharacterTex ...

打印 上一主题 下一主题

主题 844|帖子 844|积分 2532

参考:
https://github.com/TommyTang930/LangChain_LLM_ChatBot
https://python.langchain.com/docs/integrations/vectorstores/faiss
1、文本切割RecursiveCharacterTextSplitter

这里对着类举行了改写,对中文切分更友好
  1. import re
  2. from typing import List, Optional, Any
  3. from langchain.text_splitter import RecursiveCharacterTextSplitter
  4. import logging
  5. logger = logging.getLogger(__name__)
  6. def _split_text_with_regex_from_end(
  7.         text: str, separator: str, keep_separator: bool
  8. ) -> List[str]:
  9.     # Now that we have the separator, split the text
  10.     if separator:
  11.         if keep_separator:
  12.             # The parentheses in the pattern keep the delimiters in the result.
  13.             _splits = re.split(f"({separator})", text)
  14.             splits = ["".join(i) for i in zip(_splits[0::2], _splits[1::2])]
  15.             if len(_splits) % 2 == 1:
  16.                 splits += _splits[-
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表