AI 语言模子发展史：统计方法、RNN 与 Transformer 的技能演进 ...

鼠扑 · 2025-2-17 16:07:30

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

引言

天然语言处置处罚（NLP）是 AI 领域的重要分支，而语言模子（Language Model, LM）是 NLP 的焦点技能。语言模子经历了从 统计方法 到 RNN（循环神经网络），再到 Transformer 的演进，每一步都在提升模子的表达本领和盘算服从。
本文从技能角度详细分析三种方法的焦点原理、优缺点，并探讨 Transformer 如安在 AI 大模子（如 GPT-4）中发挥关键作用。

1. 统计方法（N-gram）

1.1 方法原理

统计方法基于 马尔可夫假设（Markov Assumption），认为当前词的出现仅依靠于前面 n-1 个词，而不是整个句子汗青。常见的 N-gram 语言模子如下：

Unigram（1-gram）: 仅思量每个词的单独概率 P(w)。
Bigram（2-gram）: 仅思量当前词的前一个词 P(w_t | w_{t-1})。
Trigram（3-gram）: 仅思量当前词的前两个词 P(w_t | w_{t-2}, w_{t-1})。

语言模子的盘算方式如下：
[
P(W) = P(w_1, w_2, …, w_T) = \prod_{t=1}^{T} P(w_t | w_{t-n+1}, …, w_{t-1})
]
1.2 优缺点

✅ 优点：

盘算简朴，易于实现。
适用于小型数据集，能快速盘算概率。

❌ 缺点：

长距离依靠题目：N-gram 只能思量有限的上下文，忽略远距离词的影响。
数据稀疏性：高阶 N-gram 必要大量数据，罕见短语可能无统计数据。
无法泛化：仅能处置处罚练习数据中见过的词汇，对新词无能为力。

2. RNN（循环神经网络）

2.1 方法原理

RNN 通过隐藏状态 h_t 影象过去的信息，解决了 N-gram 只能处置处罚短上下文的题目。RNN 的焦点盘算公式如下：
[
h_t = f(W_h h_{t-1} + W_x x_t + b)
]
[
y_t = W_y h_t + b_y
]
此中：

( h_t ) 是当前的隐藏状态，包含了过去的信息。
( W_h, W_x, W_y ) 是权重矩阵，( b ) 是偏置项。
( x_t ) 是输入，( y_t ) 是输出。

2.2 变体（LSTM & GRU）

(1) LSTM（是非时影象网络）
LSTM 通过 遗忘门（Forget Gate）、输入门（Input Gate）、输出门（Output Gate） 控制信息流动，使其可以或许记住长期依靠信息：
[
f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)
]
[
i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)
]
[
o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)
]
[
c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c_t}
]
[
h_t = o_t \odot \tanh(c_t)
]
此中：

( f_t, i_t, o_t ) 分别为遗忘门、输入门和输出门。
( c_t ) 是细胞状态，存储长期信息。

(2) GRU（门控循环单位）
GRU 结构比 LSTM 更简朴，合并了输入门和遗忘门：
[
z_t = \sigma(W_z [h_{t-1}, x_t])
]
[
r_t = \sigma(W_r [h_{t-1}, x_t])
]
[
\tilde{h_t} = \tanh(W_h [r_t \odot h_{t-1}, x_t])
]
[
h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h_t}
]
2.3 优缺点

✅ 优点：

能处置处罚恣意长度的序列，比 N-gram 适应更长的上下文。
LSTM/GRU 解决了普通 RNN 的梯度消失题目。

❌ 缺点：

练习速率慢，难以并行化（序列盘算依靠前一步）。
对长序列仍存在信息遗忘题目。

3. Transformer（自注意力机制）

3.1 方法原理

Transformer 彻底扬弃了 RNN，利用 自注意力机制（Self-Attention） 盘算词与词之间的关系，并行处置处罚整个句子。
(1) 自注意力机制

给定输入序列 ( X = [x_1, x_2, …, x_n] )，我们盘算每个词的 查询（Q）、键（K）、值（V）：
[
Q = XW_Q, \quad K = XW_K, \quad V = XW_V
]
盘算注意力权重：
[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
]
(2) 多头注意力

多个注意力头（Multi-Head Attention）并行盘算：
[
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, …, \text{head}_h) W_O
]
(3) 位置编码

由于 Transformer 没有 RNN 的时序结构，必要 位置编码（Positional Encoding） 引入位置信息：
[
PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d})
]
[
PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d})
]
3.2 优缺点

✅ 优点：

并行盘算，提高练习速率。
处置处罚长序列时效果优于 RNN，没有梯度消失题目。

❌ 缺点：

盘算量大，对硬件要求高。
长文本处置处罚本钱较高（注意力盘算复杂度为 ( O(n^2) )）。

总结

方法焦点原理优点缺点N-gram统计词频概率盘算简朴不能处置处罚长距离依靠RNN记住前面信息渐渐推测得当短文本练习慢，长句信息遗忘Transformer关注整个句子，注意力机制并行盘算，高效处置处罚长文本盘算量大，练习本钱高目前，Transformer 是大模子（如 GPT-4、BERT）的焦点技能，将来 NLP 发展仍围绕自注意力机制睁开。

		自动登录	找回密码
密码			立即注册

AI 语言模子发展史：统计方法、RNN 与 Transformer 的技能演进 ...

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块