词向量(word embeddings)是天然语言处置惩罚(NLP)中用于表示单词语义的焦点技术。它们通过将单词映射到高维向量空间,使得相似的单词在空间中具有靠近的表示。然而,纵然利用相同的数据和模型,词向量的表示仍然可能发生变革,这种征象被称为词向量的可变性(variability of word embeddings)。 2. 词向量可变性的泉源
对比在 V1 和 V2 中,w 的 k 近邻单词(top-k nearest neighbors)。
盘算 V1 和 V2 之间的近邻重叠度。
公式:
Overlap ( w ) = ∣ N N k ( w , V 1 ) ∩ N N k ( w , V 2 ) ∣ k \text{Overlap}(w) = \frac{|NN_k(w, V1) \cap NN_k(w, V2)|}{k} Overlap(w)=k∣NNk(w,V1)∩NNk(w,V2)∣
此中:
N N k ( w , V 1 ) NN_k(w, V1) NNk(w,V1)
表示单词 w 在 V1 词向量中的前 k 个最近邻单词集合。