似然是给定输出x时,关于参数θ的似然函数 \(L(\theta|x)\) (在数值上)即是给定参数θ后变量x的概率: \(L(\theta|x)=P(X=x|\theta)\) 。
①对于分子,点积是两个向量关系的相似性度量(因为同号相加,异号相减),所以这好像是一个合理的想法这就是softmax的一个例子,因此,那么我们便乐成得到了损失函数,接下来计算损失函数梯度即可(推导略)
②对于分子,我们不想概率为负,所以取指数
③我们必要总和为1,所以分母为词汇表中每个不同单词和中央词的相似度之和
Skip-gram在现实操纵中,利用一个滑动窗口(一般情况下,长度是奇数),从左到右开始扫描当前句子。每个扫描出来的片段被当成一个小句子,每个小句子中间的词被认为是中央词,其余的词被认为是这个中央词的上下文。CBOW
对于庞大的语料库,这样会产生庞大的计算量,但这只是一次性的前期投入成本最小二乘法目标函数
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) | Powered by Discuz! X3.4 |