【天然语言处理惩罚（NLP）】先容、发展史

天津储鑫盛钢材现货供应商 发表于 2025-11-4 22:23:06

个人主页：道友老李
欢迎参加社区：道友老李的学习社区
先容

天然语言处理惩罚（Natural Language Processing，NLP）是盘算机科学范畴与人工智能范畴中的一个告急方向。它研究的是人类（天然）语言与盘算机之间的交互。NLP的目标是让盘算性可以或许明白、分析、天生人类语言，而且可以或许以故意义的方式回应和利用这些信息。
NLP的任务可以分为多个条理，包罗但不限于：

[*]词法分析：将文天职解成单词或标志（token），并辨认它们的词性（如名词、动词等）。
[*]句法分析：分析句子结构，明白句子中词语的关系，比如主语、谓语、宾语等。
[*]语义分析：试图明白句子的实际寄义，逾越字面意义，捕捉隐含的信息。
[*]语用分析：思量上下文和对话配景，明白话语在特定情境下的利用目标。
[*]感情分析：检测文本中表达的感情倾向，比方正面、负面或中立。
[*]呆板翻译：将一种天然语言转换为另一种天然语言。
[*]问答体系：构建可以答复用户题目标体系。
[*]文本择要：从大量文本中提取关键信息，天生简短的择要。
[*]定名实体辨认（NER）：辨认文本中提到的特定实体，如人名、地名、构造名等。
[*]语音辨认：将人类的语音转换为盘算机可读的笔墨格式。
NLP技能的发展依靠于算法的进步、盘算本领的提升以及大规模标注数据集的可用性。比年来，深度学习方法，特别是基于神经网络的语言模子，如BERT、GPT系列等，在许多NLP任务上取得了显着的乐成。随着技能的进步，NLP正在被应用到越来越多的范畴，包罗客户服务、智能搜刮、内容保举、医疗康健等。
发展史

天然语言处理惩罚（NLP）的发展史可以被分为几个关键阶段，每个阶段都有其特性和标志性效果。以下是NLP发展的一个扼要汗青概览：
天然语言处理惩罚（NLP）的发展史可以分为几个关键时期，每个时期都有其标志性技能和方法的突破。以下是按照时间次序概述的 NLP 发展历程：
1. 规则驱动时期（20世纪50年代-80年代）

技能特点

[*]符号主义：早期的 NLP 体系告急依靠于手工编写的规则和语法来分析文本。
[*]专家体系：如 ELIZA（1966年），一个简朴的谈天呆板人，通过模式匹配和模板更换与用户举行对话。
[*]基于语法的分析：比方 Chomsky 的天生语法理论，试图用情势化的规则形貌人类语言。
标志性效果

[*]Shrdlu（1970年）：一个可以或许明白天然语言指令并与捏造天下互动的步调。
[*]LISP 和 PROLOG：这些编程语言为早期的 AI 和 NLP 研究提供了工具。
2. 统计方法鼓起（1990年代-2000年代）

技能特点

[*]数据驱动：开始转向利用统计模子从大量文本数据中学习规律。
[*]呆板学习算法：引入了质朴贝叶斯分类器、最大熵模子、支持向量机（SVM）、条件随机场（CRF）等。
[*]n-gram 模子：用于语言建模，猜测序列中下一个词的概率。
标志性效果

[*]隐马尔可夫模子 (HMM)：广泛应用于语音辨认和词性标注。
[*]IBM Model：一系列翻译模子，推动了统计呆板翻译的进步。
[*]WordNet：一个英语词汇数据库，促进了语义关系的研究。
3. 神经网络复兴（2010年代初至今）

技能特点

[*]深度学习：循环神经网络（RNN）、黑白期影象网络（LSTM）、门控循环单元（GRU）等架构成为主流。
[*]词嵌入：Word2Vec（2013年）、GloVe（2014年）等技能将单词映射到连续向量空间，捕捉语义信息。
[*]注意力机制：允许模子聚焦于输入的差别部分，进步了性能。
标志性效果

[*]seq2seq 模子：由编码器-解码器结构构成，乐成应用于呆板翻译。
[*]BERT（Bidirectional Encoder Representations from Transformers, 2018年）：预练习的语言表现模子，显着提升了多项 NLP 任务的表现。
[*]GPT 系列：大规模无监督预练习模子，在多个卑鄙任务上展示了强大的泛化本领。
4. 集成与应用深化（现阶段及将来）

技能特点

[*]多模态融合：团结视觉、音频等多种感知模式，实现更复杂的人机交互。
[*]强化学习：探索在对话体系中的应用，以优化长期夸奖为目标。
[*]伦理与透明度：关注模子的公平性、隐私掩护以及表明性题目。
标志性趋势

[*]大规模预练习模子：如 T5、ELECTRA 等，进一步加强了模子的本领。
[*]微调与迁徙学习：使得预练习模子可以快速顺应特定范畴或任务。
[*]连续学习：研究怎样让模子在不忘记旧知识的情况下不停学习新知识。
NLP 的发展历程反映了从基于规则的方法徐徐过渡到数据驱动、特别是深度学习主导的方法。随着盘算资源的增长和技能进步，NLP 正在变得越来越强大，而且正在越来越多地融入我们的一样平常生存之中。
ONE HOT

https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvMWMxZjg4Yzg1YmIyNDA2YThhOTNmZDZjMWE1NzNkNjIucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNTljNmI3MDAyZDliNGZlZmI0NTkyNTQ1MTMxNjY1MWMucG5n

[*]优点：开创了文本处理惩罚
[*]缺点

[*]对“也”这种高频但偶尔义的词缺乏处理惩罚
[*]纯统计，无前后文关系

TF-IDF

https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvZGE4YmM3Y2ZiMWE4NGQzMWJjZTUxYTYzZmMzZWMzNzgucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNWZhODVjYzdkZTYwNGVmZWFhOTYwYjdjMzlmZGIzMWUucG5n

[*]优点：办理了高频但偶尔义的词的处理惩罚
[*]缺点：次序带来的寄义题目
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvN2UyNzY2OTlmNzAwNGU4OWI1MWJiNjE3ODRiNjNhYWIucG5n
N-gram

n-gram 是一种在天然语言处理惩罚（NLP）、概率论和统计学中用于处理惩罚文本或语音序列的简朴而有效的方法。它基于如许一个假设：一个词（或字符）出现的概率只依靠于它前面的 (n-1) 个词（或字符）。通过这种方式，n-gram 模子可以用来猜测下一个大概出现的词，大概盘算给定序列的概率。
n-gram 的界说

[*]Unigram (1-gram)：单个词的频率分布，不思量上下文。
[*]Bigram (2-gram)：两个连续词的组合，思量前一个词的影响。
[*]Trigram (3-gram)：三个连续词的组合，思量前两个词的影响。
[*]更高阶的 n-gram：可以扩展到更多的连续词，如四元组、五元组等。
比方，在句子 “I love natural language processing” 中：

[*]Unigram 大概是 “I”, “love”, “natural”, “language”, “processing”.
[*]Bigram 包罗 “I love”, “love natural”, “natural language”, “language processing”.
[*]Trigram 则有 “I love natural”, “love natural language”, “natural language processing”.
n-gram 的应用

n-gram 模子广泛应用于多种 NLP 和信息检索任务中，包罗但不限于：

[*]语言模子：用于估计一个词序列的概率，这在主动语音辨认（ASR）、呆板翻译和文本天生等范畴非常告急。
[*]拼写改正：根据上下文来选择最大概的精确单词。
[*]语法查抄：辨认不符合通例模式的词序列。
[*]信息检索：进步搜刮引擎的干系性排序。
[*]文档分类：资助确定文档的主题或种别。
[*]呆板翻译：辅助天生更流畅的目标语言句子。
n-gram 的构建过程

[*]语料库准备：网络并清算大量文本数据作为练习集。
[*]分词：将文天职割成单独的词或字符。
[*]统计频率：盘算每个 n-gram 在语料库中出现的次数。
[*]平滑技能：为了处理惩罚未见过的 n-gram 或淘汰希罕题目，可以接纳诸如加法平滑（Laplace smoothing）、Kneser-Ney 平滑等方法。
[*]概率估计：利用最大似然估计或其他方法来盘算每个 n-gram 的条件概率。
优点与范围

优点

[*]简朴直观：易于明白和实现。
[*]高效快速：得当在线处理惩罚和实时应用。
[*]无需复杂特性工程：直接从文本中提取特性，淘汰了预处理惩罚的工作量。
范围

[*]上下文窗口有限：只能捕捉局部依靠关系，难以处理惩罚长间隔依靠。
[*]数据希罕题目：对于低频 n-gram，大概会碰到零概率的题目。
[*]维度灾难：随着 n 的增长，大概须要极大量的数据来可靠地估计高阶 n-gram 的概率。
只管存在这些范围，n-gram 模子仍旧是许多 NLP 应用步调的根本构成部分，而且在某些场景下表现得非常出色。别的，它们也经常与其他更复杂的模子团结利用，以提升团体性能。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvM2E0MWUwYTczYThkNGI0NDkwZWU2NWMyZmM5NjRhNmUucG5n

[*]优点

[*]办理了高频但偶尔义的词的处理惩罚
[*]办理了次序带来的寄义题目

[*]缺点：词表爆炸，参数爆炸
分布式

https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvYjNlZjA5YTU2ZDU1NDRkODg1NTViMzMxNzA1YjQzZTgucG5n

[*]优点：存储量小
[*]缺点：规定格式，不实际
共现矩阵

共现矩阵（Co-occurrence Matrix）是天然语言处理惩罚和信息检索范畴中用于表现词汇项之间共现关系的一种统计工具。它纪录了文档聚集中词汇项在肯定上下文窗口内共同出现的频率。这种矩阵可以用来捕捉词汇之间的语义关联，对于诸如词向量学习、主题建模、保举体系等任务非常有效。
共现矩阵的根本概念

在一个简朴的二元共现矩阵中，每一行和每一列代表一个差别的词汇项，而矩阵中的每个元素则表现对应两个词汇项在同一上下文中同时出现的次数。比方，在给定的一组文本中，“猫”和“狗”这两个词如果经常出现在同一句话或同一个段落里，那么它们对应的矩阵元素就会有一个较高的值。
构建共现矩阵

[*] 界说上下文：起首须要确定怎样界说词汇项之间的“共现”。最常见的是利用固定巨细的滑动窗口，比如以句子为单元大概设定一个特定长度的单词序列作为上下文范围。
[*] 初始化矩阵：创建一个空矩阵，其行列分别对应于你想要分析的全部词汇项。如果词汇表中有V个差别词汇，则会得到一个VxV的矩阵。
[*] 添补矩阵：遍历整个文档集，每当一对词汇项在预界说的上下文中一起出现时，就增长该对词汇项在矩阵中相应位置的计数。
[*] 归一化（可选）：根据详细应用需求，大概须要对矩阵举行归一化处理惩罚，比方将每个元素除以总词汇数或文档总数，以便比力差别规模的数据集。
应用场景

[*] 词向量学习：如Word2Vec模子利用共现信息来练习词嵌入，通过猜测一个词的上下文词或反之，从而捕捉词汇间的语义相似性。
[*] 主题建模：共现矩阵可以资助辨认出经常一起出现的词汇群组，这些群组每每反映了埋伏的主题或话题。
[*] 保举体系：在商品或内容保举中，共现矩阵可以用来发现用户爱好点之间的关联，进而提供个性化保举。
[*] 语义脚色标注：在更复杂的NLP任务中，如语义脚色标注，共现信息有助于明白句子中差别因素之间的关系。
寻衅与改进

只管共现矩阵是一个强大的工具，但它也有一些范围性，比如希罕性和高维度题目。随着数据量的增长，矩阵大概会变得非常巨大且大部分元素为零。为此，研究者们提出了各种优化计谋，包罗降维技能（如奇异值分解SVD）、负采样、以及利用更高效的存储结构等方法来应对这些题目。别的，一些当代的方法，如基于神经网络的语言模子，已经可以或许直接从原始文本中学习到更加丰富的词汇表征，而无需显式地构建共现矩阵。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvMWE4MWRhOTIwYjUwNDVkMTgzYTkxYTkwMmQ0YjY1YjEucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNzgyODYzOWI3NDI4NDdkZGE2MmNkOGU2YTY5ODNhYjEucG5n

[*]优点：包罗语义信息
[*]缺点：

[*]向量维数随辞书巨细线性增长，存储困难
[*]数据希罕
[*]模子欠稳固（共现矩阵size变革，深度学习困难）

SVD降维
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvZWI4MTNhYTg3YjU3NGZlNjgyOTU1MTc2YjQ5ZjVhYjIucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNDFhOTMwYTc2MWNlNGExZmE5MGI4NTQ4MzcwOTYzYzgucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNWE1MTQ0ZDZlZDc5NGZlZjk5NzQyNTgxZjQ2OGQ1NGMucG5n
NNLM

神经网络语言模子（Neural Network Language Model，NNLM）是天然语言处理惩罚范畴中一种用于猜测序列中下一个词的概率分布的模子。与传统的基于n-gram的语言模子差别，NNLM利用了人工神经网络的强大表达本领来捕捉更复杂的语言结构和上下文依靠关系。
NNLM的根本概念

一个典范的NNLM由以下几个部分构成：

[*]输入层：通常对应于句子或文本片断中的单词。这些单词被转换成独热编码（one-hot encoding）向量表现，每个单词在词汇表中都有唯一的索引位置，该位置对应的元素为1，别的为0。
[*]嵌入层（Embedding Layer）：将高维的独热编码向量映射到低维的稠密向量空间中，即所谓的词嵌入（word embeddings）。这一层可以或许学习到词汇之间的语义相似性。
[*]埋伏层：包罗一层或多层全毗连层（fully connected layers），通过非线性激活函数（如ReLU、sigmoid等）举行特性变更。这些层负责捕捉输入序列中的复杂模式和依靠关系。
[*]输出层：产生一个概率分布，表现给定前面全部词的情况下，下一个大概出现的词的概率。这通常是通过softmax函数实现的。
汗青发展

[*]Bengio等人（2003年）：提出了一种早期的神经网络语言模子架构，它初次引入了词嵌入的概念，并证明了这种模子可以有效捕捉长间隔依靠关系。
[*]CBOW和Skip-gram（2013年）：由Mikolov等人提出的Word2Vec模子进一步简化了NNLM，分别利用连续词袋模子（Continuous Bag-of-Words, CBOW）和跳字模子（Skip-gram）来举行高效练习。
[*]RNN及其变体（LSTM, GRU等）：循环神经网络及其改进版本允许更好地处理惩罚序列数据，而且能缓解传统前馈神经网络难以捕捉长序列依靠的题目。
[*]Transformer（2017年）：引入自注意力机制（self-attention mechanism），极大地提升了模子对长间隔依靠的建模本领，成为当前开始进的语言模子根本架构之一。
应用

NNLM广泛应用于各种NLP任务，包罗但不限于：

[*]呆板翻译：构建从源语言到目标语言的映射，提升翻译质量。
[*]语音辨认：进步转录精确度，特别是在嘈杂情况或口音变革较大的情况下。
[*]文本天生：比方主动择要、谈天呆板人对话天生等。
[*]感情分析：资助明白文本的感情倾向，辅助决议订定。
寻衅

只管NNLM带来了显着的进步，但它们也面临着一些寻衅：

[*]盘算资源：练习大型神经网络须要大量的盘算资源和时间。
[*]过拟合风险：如果没有得当的正则化本领，模子大概会过分顺应练习数据而泛化本领差。
[*]表明性题目：相比于规则基体系，NNLM每每被视为“黑箱”，难以直观明白其内部运作机制。
随着技能的发展，研究者们不停探索新的方法和技能来降服这些寻衅，使得NNLM更加实用和高效。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvMmYwZDk4ZDMyMDJhNDkyN2JiMzc0NDViYmI1YTNjNTcucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNzM2ZTA1ZjEzOGNlNDRjZTljZDBhZmVmMjU2YmQyMzUucG5n

[*]优点：团结上文的深度学习模子
[*]缺点：未团结下文，隐层多，盘算量大
word2vec

Word2Vec 是一种用于天生词向量（word embeddings）的盛行技能，它通过神经网络模子将词汇表中的每个单词映射到一个低维、稠密的向量空间中。这些向量不但可以或许表现单词的语义信息，还能捕捉词汇间的相似性和关系。Word2Vec 模子由 Google 在 2013 年提出，并敏捷成为天然语言处理惩罚（NLP）范畴的一个告急工具。
Word2Vec 的工作原理

Word2Vec 告急基于两个模子架构：

[*] 连续词袋模子 (Continuous Bag-of-Words, CBOW)：

[*]输入：上下文词（即目标词四周的词）。
[*]输出：猜测中央词。
[*]过程：给定一段文本中的某些词作为上下文，CBOW 模子试图猜测位于这些上下文词中心的目标词。换句话说，它根据四周词来推测当前词是什么。

[*] Skip-gram：

[*]输入：单个中央词。
[*]输出：猜测上下文词。
[*]过程：与 CBOW 相反，Skip-gram 模子担当一个中央词作为输入，并实验猜测该词四周的多个上下文词。这意味着对于每个输入词，模子会天生一系列输出词的概率分布。

两种模子的焦点头脑是通过最大化共同出现的词对之间的概率来举行练习，从而使得具有相似上下文的词在向量空间中有相近的位置。
练习过程

[*]负采样（Negative Sampling）：为了进步练习服从，Word2Vec 利用了一种称为负采样的本领。它不是更新全部非目标词的概率，而是随机选择一小部分“负例”举行更新。这大大淘汰了盘算量。
[*]条理化 softmax（Hierarchical Softmax）：另一种加快练习的方法是利用条理化 softmax，它构建了一个二叉树结构来取代传统的 softmax 层，低落了每次迭代所需的盘算次数。
特点和上风

[*]高效性：相比于从前的方法，如隐狄利克雷分配（LDA），Word2Vec 可以更快速地练习大规模数据集。
[*]捕捉语义关系：天生的词向量可以很好地表现词汇间的语义关系，比方，“king - man + woman ≈ queen”如许的线性关系。
[*]广泛实用性：由于其简朴性和有效性，Word2Vec 已被应用于多种 NLP 任务，包罗但不限于呆板翻译、感情分析、问答体系等。
应用实例

[*]保举体系：利用词向量捕捉用户爱好偏好，为用户提供个性化内容保举。
[*]信息检索：加强搜刮引擎的本领，使搜刮效果更加精准。
[*]文天职类：资助明白文档的主题或种别，辅助主动分类。
限定

只管 Word2Vec 提供了强大的词向量表现方法，但它也有一些范围性：

[*]无法处理惩罚多义词：一个单词大概有多个寄义，但 Word2Vec 给出的是单一的向量表现，不能区分差别上下文下的差别意义。
[*]依靠于上下文窗口：Word2Vec 只思量固定巨细的上下文窗口内的词，大概忽略了更广泛的上下文信息。
[*]静态词嵌入：对于同一个词，无论出现在什么位置，Word2Vec 都会产生雷同的向量表现，这在某些情况下大概不敷机动。
随着深度学习的发展，后续出现了更多先辈的词嵌入方法，比如 ELMo、BERT 等，它们可以或许动态地天生基于上下文的词向量，进一步提升了 NLP 任务的表现。不外，Word2Vec 仍旧是明白和入门词向量概念的告急出发点。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNjNlYTMzZDdjMTgwNGQ3Y2FjMzZlOWE1MDEwNjcxMzAucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNDUzZmNiNTYxNTIzNGE3MTkxYjlmMWYwMDBkZGExOGQucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvNDc1Y2RkOTQ2YTcwNDYxZjhkYmVlOWNhMTExZTgyMTIucG5n
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvYzk2ZjdiZDkzNWYxNDUxMThlMWVkZWNmZjhiY2E2MWMucG5n

[*]优点：速率快，盘算量小，cpu上就能跑
[*]缺点：全局信息不敷，多义词题目未办理

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com ToB IT社区-企服评测·应用市场's Archiver

【天然语言处理惩罚（NLP）】先容、发展史