GLU 的核心思想是将输入数据通过两个线性变换,此中一个变换的效果通过 Sigmoid 函数举行非线性处理,另一个保持线性,然后两者逐元素相乘。其数学表达式为:
GLU ( x ) = σ ( W 1 x + b 1 ) ⊙ ( W 2 x + b 2 ) \text{GLU}(x) = \sigma(W_1 x + b_1) \odot (W_2 x + b_2) GLU(x)=σ(W1x+b1)⊙(W2x+b2)
此中:
σ \sigma σ 是 Sigmoid 函数,用于生成门控信号。
W 1 W_1 W1 和 W 2 W_2 W2 是权重矩阵, b 1 b_1 b1 和 b 2 b_2 b2 是偏置项。
⊙ \odot ⊙ 表示逐元素乘法。
2.2GLU 的工作原理
线性变换:
输入 x x x 经过两个线性变换,分别得到 W 1 x + b 1 W_1 x + b_1 W1x+b1 和 W 2 x + b 2 W_2 x + b_2 W2x+b2。
第一个变换的效果通过 Sigmoid 函数,生成门控信号;第二个变换的效果保持线性。
门控机制:
门控信号 σ ( W 1 x + b 1 ) \sigma(W_1 x + b_1) σ(W1x+b1) 决定了哪些信息可以通过,哪些必要被抑制。
线性信号 W 2 x + b 2 W_2 x + b_2 W2x+b2 与门控信号逐元素相乘,从而实现信息的选择性传递。