Oracle构建大语言模型应用：数据准备（第二部分）

忿忿的泥巴坨 发表于 2025-3-30 03:07:05

构建大语言模型应用：数据准备（第二部分）

本专栏通过检索增强生成（RAG）应用的视角来学习大语言模型（LLM）。
本系列文章

[*]简介
[*]数据准备（本文）
[*]句子转换器
[*]向量数据库
[*]搜刮与检索
[*]大语言模型
[*]开源检索增强生成
[*]评估
[*]大语言模型服务
[*]高级检索增强生成 RAG
https://i-blog.csdnimg.cn/direct/8d9556f2bac04450885b6adc75f9ebe9.png
如上图所示，是检索增强生成（RAG）的数据准备流程
在上一篇文章中，我们深入探讨了检索增强生成（RAG）流程，全面了解了它的各个构成部分。
任何呆板学习应用的初始阶段都须要举行数据准备。这包括创建数据摄取流程以及对数据举行预处理，使其与推理流程兼容。
在本文中，我们将把注意力转向检索增强生成（RAG）的数据准备方面。目标是有效地组织和构建数据结构，确保在我们的应用程序中能够以最佳性能找到答案。
下面让我们深入了解细节。
1. 步骤一：数据摄取

构建一个用户友爱的聊天呆板人，始于明智的数据选择。这篇博客将探讨如作甚成功的语言模型（LLM）应用有效地收集、管理和清算数据。

[*]明智选择：确定命据源，从门户网站到应用程序编程接口（API），并设置一个推送机制，以便为你的大语言模型应用持续更新数据。
[*]数据管理至关紧张：预先实施数据管理政策。对文档来源举行稽核和编目，编辑掉敏感数据，并为上下文练习奠基底子。
[*]质量查抄：评估数据的多样性、规模和噪声水平。质量较低的数据聚会会议使复兴质量下降，因此须要一个早期分类机制。
[*]保持领先：纵然在快节奏的大语言模型开发中，也要坚持数据管理。这可以降低风险，并确保可扩展、稳健的数据提取。
[*]及时清算：从诸如Slack这样的平台获取数据？及时过滤掉噪声、拼写错误和敏感内容，以打造一个干净、有效的大语言模型应用。
2. 步骤二：数据清洗

我们文件的每一页都会转换为一个文档对象，并且有两个基本构成部分：页面内容（page_content）和元数据（metadata）。
页面内容展示了直接从文档页面提取的文本内容。
元数据是一组至关紧张的附加详细信息，比如文档的来源（它所源自的文件）、页码、文件类型以及其他信息要点。元数据在发挥其作用并生成有深刻见解的答案时，会记载它所利用的特定来源。
https://i-blog.csdnimg.cn/direct/c6a0118ca14d4387b035fb046b8e7726.png
更多内容：Data Loading
为了实现这一点，我们利用强盛的工具，如数据加载器（Data Loaders），这些工具由像LangChain和Llamaindex这样的开源库提供。这些库支持各种格式，从PDF和CSV到HTML、Markdown，甚至是数据库。
!pip install pypdf
!pip install langchain
# 对于PDF文件，我们需要从langchain框架中导入PyPDFLoader
from langchain_community.document_loaders import PyPDFLoader

# 对于CSV文件，我们需要导入csv_loader
# 对于Doc文件，我们需要导入UnstructuredWordDocumentLoader
# 对于文本文档，我们需要导入TextLoader

filePath = "/content/A_miniature_version_of_the_course_can_be_found_here__1701743458.pdf"
loader = PyPDFLoader(filePath)
# 加载文档
pages = loader.load_and_split()
print(pages.page_content)
这种方法的一个长处是可以通过页码来检索文档。
3. 步骤三：分块

https://i-blog.csdnimg.cn/direct/ff8cf8c66b944add88c8eae033bdb584.png
3.1. 为什么要分块？

在应用程序范畴中，关键在于你如何处理数据——无论是Markdown文件、PDF文件照旧其他文本文件。想象一下：你有一个巨大的PDF文件，并且你渴望就其内容提出问题。问题在于，传统的将整个文档和你的问题一股脑抛给模型的方法并不管用。为什么呢？嗯，让我们来谈谈模型上下文窗口的范围性。
以GPT-3.5 及其雷同模型为例。可以把上下文窗口想象成窥视文档的一个窗口，通常只限于一页或几页的内容。那么，一次性共享整个文档呢？不太现实。但是别担心！
诀窍在于对数据举行分块。将其分解为易于处理的部分，只将最相关的分块发送给模型。这样，你就不会让模型不堪重负，并且能够获得你渴望的准确见解。
通过将我们的结构化文档分解为可管理的分块，我们使大语言模型能够以无与伦比的服从处理信息。不再受页面限制的束缚，这种方法确保关键细节不会在处理过程中丢失。
3.2. 分块前的考虑因素

[*]文档的结构和长度：

[*]长文档：书籍、学术文章等。
[*]短文档：社交媒体帖子、客户批评等。

[*]嵌入模型：分块大小决定了应该使用哪种嵌入模型。
[*]预期查询：应用场景是什么？
3.3. 分块大小

[*]小块大小：例如：单个句子 → 生成时的上下文信息较少。
[*]大块大小：例如：整页、多个段落、整个文档。在这种情况下，分块涵盖更多信息，这可以通过更多的上下文来提高生成的有效性。
3.3.1. 选择分块大小

https://i-blog.csdnimg.cn/direct/eefd16a11ff3468bb839118181ad74be.png

[*]大语言模型上下文窗口：对可以输入到大语言模型的数据量有限制。
[*]前K个检索到的分块：假设大语言模型有一个10,000个Token的上下文窗口大小，我们为给定的用户查询预留约莫1000个Token，为指令提示和聊天记载预留2000个Token，那么只剩下7000个Token用于其他任何信息。假设我们计划将K = 10，即前10个分块通报给大语言模型，这意味着我们将剩余的7000个Token除以统共10个分块，那么每个分块的最大大小约为700个Token。
[*]分块大小范围：下一步是选择一系列大概的分块大小举行测试。如前所述，选择应考虑内容的性质（例如，短消息或长篇文档）、你将使用的嵌入模型及其本事（例如，标志限制）。目标是在生存上下文和保持准确性之间找到均衡。起首探索各种分块大小，包括较小的分块（例如，128或256个Token）以捕获更精致的语义信息，以及较大的分块（例如，512或1024个Token）以生存更多上下文。
[*]评估每个分块大小的性能：要测试各种分块大小，你可以使用多个索引，或者使用具有多个命名空间的单个索引。使用具有代表性的数据集，为你想要测试的分块大小创建嵌入，并将它们生存在你的索引（或多个索引）中。然后，你可以运行一系列查询，通过这些查询评估质量，并比较各种分块大小的性能。这很大概是一个迭代过程，你针对不同的查询测试不同的分块大小，直到你能够确定得当你的内容和预期查询的性能最佳的分块大小。
高上下文长度的限制：由于Transformer模型的自注意力机制，高上下文长度大概会导致时间和内存呈二次方增加。
在LlamaIndex发布的这个例子中，你可以从下面的表格中看到，随着分块大小的增加，均匀响应时间会有小幅上升。有趣的是，均匀老实度好像在分块大小为1024时到达峰值，而均匀相关性随着分块大小的增加持续提高，也在分块大小为1024时到达峰值。这表明分块大小为1024大概在响应时间和复兴质量（以老实度和相关性衡量）之间到达最佳均衡。
https://i-blog.csdnimg.cn/direct/c3dfbafac0934c52b809ddee716950f8.png
3.4. 分块方法

有不同的分块方法，并且每种方法大概实用于不同的情况。通过研究每种方法的优缺点，我们的目标是确定应用它们的合适场景。
3.4.1. 固定大小分块

我们决定每个分块中的标志数目，并可选择添加重叠部分以确保效果。为什么要重叠呢？是为了确保语义上下文的丰富性在各个分块之间保持完整。
为什么选择固定大小呢？在大多数情况下，这是最佳选择。它不但盘算成本低，节省处理本事，而且使用起来也很方便。无需复杂的自然语言处理库，只需用固定大小的分块优雅地分解你的数据即可。
以下是使用LangChain举行固定大小分块的示例：
text = "..." # 你的文本
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator = "\n\n",
chunk_size = 256,
chunk_overlap= 20
)
docs = text_splitter.create_documents()
3.4.2. “上下文感知”分块

这些是一组利用我们正在分块的内容的特性，并对其应用更复杂分块的方法。以下是一些示例：
3.4.2.1. 句子分割

正如我们之条件到的，许多模型针对嵌入句子级别的内容举行了优化。自然地，我们会使用句子分块，并且有几种方法和工具可用于实现这一点，包括：

[*]简单分割：最直接的方法是按句号（“.”）和换行符分割句子。虽然这大概快速且简单，但这种方法不会考虑全部大概的边界情况。这是一个非常简单的示例：
text = "..." # 你的文本
docs = text.split(".")

[*]NLTK：自然语言工具包（NLTK）是一个流行的用于处理人类语言数据的Python库。它提供了一个句子标志器，可以将文本分割成句子，有助于创建更有意义的分块。例如，要将NLTK与LangChain一起使用，可以实行以下操作：
text = "..." # 你的文本
from langchain.text_splitter import NLTKTextSplitter
text_splitter = NLTKTextSplitter()
docs = text_splitter.split_text(text)

[*]spaCy：spaCy是另一个用于自然语言处理使命的强盛Python库。它提供了一种复杂的句子分割功能，可以有效地将文本分割成单独的句子，从而在生成的分块中更好地生存上下文。例如，要将spaCy与LangChain一起使用，可以实行以下操作：
text = "..." # 你的文本
from langchain.text_splitter import SpacyTextSplitter
text_splitter = SpaCyTextSplitter()
docs = text_splitter.split_text(text)
3.4.2.2. 递归分块

来认识一下我们的机密武器：LangChain的RecursiveCharacterTextSplitter。这个多功能工具可以根据选定的字符优雅地分割文本，同时生存语义上下文。想想双换行符、单换行符和空格——它就像把信息雕琢成易于理解的、有意义的部分。
它是如何工作的呢？很简单。只需传入文档并指定所需的分块长度（假设为1000个单词）。你甚至可以微调分块之间的重叠部分。
以下是如何使用LangChain举行递归分块的示例：
text = "..." # 你的文本
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
# 设置一个非常小的分块大小，仅用于演示。
chunk_size = 256,
chunk_overlap= 20
)
docs = text_splitter.create_documents()
3.4.2.3. 特殊分块

Markdown和LaTeX是你大概会碰到的两种结构化和格式化内容的示例。在这些情况下，你可以使用特殊的分块方法，在分块过程中生存内容的原始结构。

[*]Markdown：Markdown是一种常用于格式化文本的轻量级标志语言。通过识别Markdown语法（例如，标题、列表和代码块），你可以根据其结构和层次结构智能地分割内容，从而得到语义更连贯的分块。例如：
from langchain.text_splitter import MarkdownTextSplitter
markdown_text = "..."
markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)
docs = markdown_splitter.create_documents()
markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)
docs = markdown_splitter.create_documents()

[*]LaTeX：LaTeX是一种常用于学术论文和技术文档的文档准备体系和标志语言。通太过析LaTeX命令和情况，你可以创建恭敬内容逻辑组织（例如，章节、子章节和方程式）的分块，从而得到更准确和上下文相关的效果。例如：
from langchain.text_splitter import LatexTextSplitter
latex_text = "..."
latex_splitter = LatexTextSplitter(chunk_size=100, chunk_overlap=0)
docs = latex_splitter.create_documents()
3.5. 多模态分块

https://i-blog.csdnimg.cn/direct/a8aeec05272b4ca89c54363fb1eccbee.png

[*]从文档中提取表格和图像：使用LayoutPDFReader、Unstructured等工具。提取的表格和图像可以用标题、描述和摘要等元数据举行标志。
[*]多模态方法：

[*]文本嵌入：总结图像和表格。
[*]多模态嵌入：使用可以处理原始图像的嵌入模型。

4. 步骤四：Tokenization 标志化

https://i-blog.csdnimg.cn/direct/4babb6dbd4e64a5ea0367da0be0cb55d.png
最常用标志化方法总结
标志化包括将短语、句子、段落或整个文本文档分割成更小的单元，例如单个单词或术语。在本文中，我们将了解主要的标志化方法以及它们目前的应用场景。我建议你也查看一下Hugging Face制作的这个标志器总结，以获取更深入的指南。
4.1. 词级标志化 Word-Level Tokenization

词级标志化包括将文本分割成单词单元。为了精确地举行标志化，须要考虑一些注意事项。

[*]空格和标点符号标志化：
将文本分割成较小的块比看起来要难，并且有多种方法可以做到这一点。例如，让我们看一下下面的句子：
“Don't you like science? We sure do.”
对这段文本举行标志化的一种简单方法是按空格分割，这将得到：
["Don't", "you", "like", "science?", "We", "sure", "do."]
假如我们看一下标志“science?”和“do.”，我们会注意到标点符号与单词“science”和“do”连在一起，这并不理想。我们应该考虑标点符号，这样模型就不必学习一个单词及其背面大概出现的每个标点符号的不同表示形式，否则模型必须学习的表示形式数目会激增。
考虑标点符号后，对我们的文本举行标志化将得到：
["Don", "'", "t", "you", "like", "science", "?", "We", "sure", "do", "."]

[*]基于规则的标志化：
前面的标志化方法比单纯基于空格的标志化要好一些。然而，我们可以进一步改进标志化处理“Don't”这个单词的方式。“Don't”代表“do not”，所以用雷同于["Do", "n't"]这样的方式举行标志化会更好。其他一些特定规则可以进一步改进标志化效果。
然而，根据我们应用于文本标志化的规则不同，对于相同的文本会生成不同的标志化输出。因此，只有当你向预练习模型输入的内容是使用与练习数据标志化相同的规则举行标志化时，预练习模型才能正常运行。

[*]词级标志化的问题：
词级标志化对于大规模文本语料库大概会导致问题，由于它会生成非常大的词汇表。例如，Transformer XL语言模型使用空格和标点符号标志化，导致词汇表大小到达267,000。
由于词汇表如此之大，模型的输入和输出层有一个巨大的嵌入矩阵，这增加了内存和时间复杂度。作为参考，Transformer模型的词汇表大小很少会超过50,000。
4.2. 字符级标志化 Character-Level Tokenization

那么，假如词级标志化不可行，为什么不直接对字符举行标志化呢？
尽管字符级标志化会极大地降低内存和时间复杂度，但它会使模型更难学习到有意义的输入表示。例如，学习字母“t”的一个有意义且与上下文无关的表示，要比学习单词“today”的与上下文无关的表示难得多。
因此，字符级标志化每每会导致性能下降。为了兼顾两者的长处，Transformer模型通常会使用一种介于词级和字符级标志化之间的混合方法，称为子词标志化。
4.3. 子词标志化 Subword Tokenization

子词标志化算法基于这样一个原则：常用词不应被分割成更小的子词，而稀有词则应被分解为有意义的子词。
例如，“annoyingly”大概被认为是一个稀有词，可以分解为“annoying”和“ly”。“annoying”和“ly”作为独立的子词出现的频率会更高，同时，“annoyingly”的意思通过“annoying”和“ly”的组合含义得以生存。
除了使模型的词汇表大小合理之外，子词标志化还能让模型学习到有意义的、与上下文无关的表示。别的，子词标志化可用于处理模型从未见过的单词，方法是将它们分解为已知的子词。
现在让我们来看看几种不同的子词标志化方法。
字节对编码（Byte-Pair Encoding: BPE）
字节对编码（BPE）依赖于一个预标志器，该预标志器将练习数据分割成单词（例如像GPT-2和RoBERTa中使用的基于空格的标志化方法）。
在预标志化之后，BPE创建一个底子词汇表，该词汇表由语料库中唯一单词集合中出现的全部符号构成，并学习合并规则，以便从底子词汇表中的两个符号形成一个新符号。这个过程会不断迭代，直到词汇表到达所需的大小。
词块（WordPiece）
用于BERT、DistilBERT和ELECTRA的词块方法与BPE非常相似。WordPiece起首将词汇表初始化为包罗练习数据中出现的每个字符，然后渐渐学习肯定命量的合并规则。与BPE不同的是，WordPiece不会选择最频繁出现的符号对，而是选择一旦添加到词汇表中就能使练习数据出现概率最大化的谁人符号对。
直观地说，WordPiece与BPE略有不同，由于它会评估合并两个符号所带来的损失，以确保这样做是值得的。
一元语法（Unigram）
与BPE或WordPiece不同，一元语法（Unigram）将其底子词汇表初始化为大量的符号，然后渐渐削减每个符号，以获得一个较小的词汇表。例如，底子词汇表可以对应于全部预标志化的单词和最常见的子字符串。Unigram通常与SentencePiece一起使用。
句子片断（SentencePiece）
到目前为止描述的全部标志化算法都有一个相同的问题：它们都假定输入文本使用空格来分隔单词。然而，并非全部语言都使用空格来分隔单词。
为了从根本上解决这个问题，SentencePiece将输入视为一个原始输入流，因此将空格也包罗在要使用的字符集合中。然后，它使用BPE或Unigram算法来构建合适的词汇表。
使用SentencePiece的模型示例包括ALBERT、XLNet、MarianMT和T5。
OpenAI标志化可视化：https://platform.openai.com/tokenizer
结论

在这篇博客中，我们探讨了检索增强生成（RAG）应用程序的数据准备过程，强调了为实现最佳性能举行高效的数据结构化。它涵盖了将原始数据转换为结构化文档、创建相关的数据块，以及子词标志化等标志化方法。我们强调了选择合适数据块大小的紧张性，以及对每种标志化方法的考量因素。这篇文章为根据特定应用需求定制数据准备工作提供了深刻见解。
鸣谢

在这篇博客文章中，我们搜集了来自各种来源的信息，包括研究论文、技术博客、官方文档等。每个来源都在相应的图片下方举行了适当的标注，并提供了来源链接。
以下是参考列表：

[*]https://dataroots.io/blog/aiden-data-ingestion
[*]https://www.pinecone.io/learn/chunking-strategies/
[*]https://www.youtube.com/watch?v=uhVMFZjUOJI&t=1209s
[*]https://medium.com/nlplanet/two-minutes-nlp-a-taxonomy-of-tokenization-methods-60e330aacad3
[*]https://medium.com/@vipra_singh/building-llm-applications-data-preparation-part-2-b7306d224245

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

构建大语言模型应用：数据准备（第二部分）