IT评测·应用市场-qidao123.com

标题: 【Tokenizer原理篇】超详细!AIGC口试系列 大模型进阶(5) [打印本页]

作者: 小小小幸运    时间: 2024-6-15 00:02
标题: 【Tokenizer原理篇】超详细!AIGC口试系列 大模型进阶(5)
本期问题聚焦于大模型Tokenizer相干问题

  
模型中的Tokenization是指的什么

在模型中,Tokenization(分词)是指将文本转换为一系列的tokens(标记)的过程。这些tokens可以是单个字符、单词的一部门,甚至是整个单词或句子片断。分词的目的是为了将文本转换成计算模型可以或许更容易分析的格式。在大型语言模型(LLMs)如OpenAI的GPT系列中,分词是明白和天生人类语言的关键步骤。
分词的方法会影响模型的性能、复杂性以及其明白语言细微差别的本事。比方,许多LLMs使用一种修改版的字节对编码(BPE)来进行分词,这种方法从最根本的元素——单个字符——开始,逐渐归并最常见的相邻字符或字符序列成为单个tokens。这使得模型可以或许有效地处理各种语言现象,包括常见词汇、罕见术语、习语,甚至是心情符号。
References
常用的Tokenization方法相识有哪些吗

这些方法各有优缺点,通常根据详细的应用场景和需求来选择符合的Tokenization方法。
References
相识什么是Byte-Pair Encoding(BPE)吗

Byte-Pair Encoding(BPE)是一种在自然语言处理(NLP)中常用的数据压缩技能。它最初是为了压缩文件而计划的,但后来在NLP领域,尤其是在处理大型词汇表时,被广泛应用于各种任务,如机器翻译、文本分类和文本天生。
BPE的焦点思想是将常见的字符对(byte pairs)归并成一个单独的新字符,这个过程会反复进行,直到到达预设的词汇巨细或者迭代次数。这种方法可以有效地淘汰须要处理的唯一词汇的数量,同时生存了词汇的大部门语义信息。
比方,假如我们有一个包含以下单词的数据集:“low”, “lower”, “newest”, “widest”,BPE会如许工作:
BPE的上风在于它可以或许均衡词汇表的巨细和文本的表示本事,同时处理未知或罕见词汇的问题。这使得BPE成为了许多当代NLP模型,如GPT-2、RoBERTa、XLM等的基础组件。
References
先容下Byte-Pair EncodingBPE的焦点算法

Byte-Pair Encoding(BPE)是一种在自然语言处理(NLP)中常用的数据压缩算法,它通过迭代归并文本中最频繁出现的字节对或字符对来构建一个更小的子词单元集合。这个算法最初由Sennrich等人在2016年提出,并已广泛应用于机器翻译、文本分类和文本天生等多种NLP任务。
BPE算法的焦点步骤如下:
比方,假设我们有一个包含以下四个单词的文本语料库:“ab”、“bc”、“bcd”和“cde”。初始词汇表由文本中的所有字节或字符组成:{“a”, “b”, “c”, “d”, “e”}。然后,算法会迭代地归并出现频率最高的字符对,比如“bc”,并将其作为一个新的子词单元添加到词汇表中。
BPE算法的上风在于它可以或许有效地处理大词汇量问题,同时淘汰未知词(OOV)的出现。它在处理具有丰富形态变化的语言或须要处理词级以下布局的语言时尤其有用。此外,BPE算法支持模型学习到词根和词缀之间的关系,从而进步了模型对文本的明白本事。
References
相识什么是WordPiece吗

WordPiece是一种在自然语言处理中使用的子词分割算法。它通过将词汇初始化为语言中的单个字符,然后迭代地将词汇中符号的最频繁组合添加到词汇中。这个过程包括以下步骤:
WordPiece在BERT和谷歌的神经机器翻译系统中得到了应用,它资助模型更好地处理词汇表外的词,并在各种NLP任务上进步性能。此外,WordPiece的练习算法与BPE(字节对编码)雷同,但实际的分词操作差别。
References
先容一下 WordPiece 思路

WordPiece 是一种用于自然语言处理(NLP)中的子词(subword)分割算法。它重要用于解决传统词表方法中的一些问题,如词汇表过大和无法处理未知词(OOV)的问题。WordPiece 的思路是在词和字符之间找到一个均衡点,通过将词分解为更小的单元,这些单元可以是词根、前缀、后缀等。
WordPiece 算法的根本步骤如下:
这种方法允许模型有效地处理罕见词和未知词,同时保持了一定的语义信息,而且可以淘汰模型的复杂性。WordPiece 在 Google 的 BERT 模型中得到了广泛应用,用于改善模型对文本的明白和处理本事。它通过迭代地归并频繁出现的字符对,逐渐构建出一个既不会太大也不会丢失太多语义信息的词表。
References
相识什么是SentencePiece吗

SentencePiece 是一个开源的文本处理工具,重要用于神经网络模型中的文本天生系统。它是一种无监视的文本 tokenizerdetokenizer,可以从原始文本中直接练习出词汇表。这个工具特别得当处理多语言数据,由于它不依赖于特定语言的预处理和后处理。
SentencePiece 支持两种子词算法:Byte-Pair Encoding (BPE)Unigram Language Model。BPE 算法通过归并频繁出现的字符对来淘汰词汇表的巨细,而 Unigram 算法则通过优化语言模型的概率来选择生存哪些词汇。这两种方法都能有效地处理未知词(OOV)问题,而且可以或许在词汇表巨细和语义表达本事之间取得均衡。
一个重要的特点是,SentencePiece 将空格也视为一个普通的符号,并将其包含在词汇表中。如许做的好处是可以生存原始文本的空格信息,使得分词和归并词(detokenization)过程可逆,这对于像中文和日文如许的语言尤其有用,由于这些语言中的词之间通常没有明白的空格分隔。
References
先容一下 SentencePiece 思路

SentencePiece 是一个由谷歌开辟的开源文本处理工具,它重要用于神经网络文本天生系统中的无监视文本分词(tokenization)和合词(detokenization)。这个工具的焦点思想是将文本分词问题视为一个无监视学习问题,它不依赖于语言特定的预处理或后处理。
SentencePiece 的特点包括:

References
Byte-Pair Encoding, WordPiece, SentencePiece这三者有什么区别

Byte-Pair Encoding (BPE)、WordPiece和SentencePiece是自然语言处理中用于子词分词的三种差别算法。它们的重要区别在于它们选择将符号对添加到词汇表中的方式。

总的来说,这三种算法都旨在通过创建子词单元来淘汰词汇表的巨细,从而解决OOV问题,并进步模型的泛化本事。选择哪一种算法取决于特定任务的需求和语料库的特性。
References
差别大模型LLMs 的分词方式

差别的大型语言模型(LLMs)在处理分词时接纳了各种方法。一般来说,这些模型会使用以下几种分词技能:
每种方法都有其上风和局限性,而且差别的LLMs可能会结合使用多种技能来优化分词的效果。
References

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4