一种将词汇表示成向量的无监督训练方法,该过程将构建神经网络模型,将网络参数作为词汇的向量表示,包罗如下两种训练模式:
3.2.1 CBOW(Continuous bag of words)
给定一段用于训练的文本语料,再选定某段长度(窗口)作为研究对象,使用上下文词汇预测目的词汇:
图中窗口大小为9,使用前后4个词汇对目的词汇举行预测。
执行过程
若给定训练语料仅一句话:Hope can set you free(愿你自由成长),窗口大小为3,因此模型的第一个训练样本来自Hope can set。CBOW模式,所以将使用Hope和set作输入,can作输出,在模型训练时, Hope,can,set等词汇都使用它们的one-hot编码,如图所示: 每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5,3指最后得到的词向量维度)相乘之后再相加,得到上下文表示矩阵(3x1):
Hope can set you free,窗口大小为3,因此模型的第一个训练样本来自Hope can set,因skipgram模式,所以将用can作输入 ,Hope和set作输出。
模型训练时, Hope,can,set等词汇都使用它们的one-hot编码. 如图所示: 将can的one-hot编码与变换矩阵(即参数矩阵3x5, 这里的3是指最后得到的词向量维度)相乘, 得到目的词汇表示矩阵(3x1)。
再将目的词汇表示矩阵与多个变换矩阵(参数矩阵5x3)相乘, 得到多个5x1的结果矩阵, 它将与我们Hope和set对应的one-hot编码矩阵(5x1)举行损失的盘算,再更新网络参数完成一次模型迭代。