IT评测·应用市场-qidao123.com

标题: 【NLP】 6. 词向量的可变性及其影响 [打印本页]

作者: 用户国营    时间: 2025-3-16 09:06
标题: 【NLP】 6. 词向量的可变性及其影响
词向量的可变性及其影响

1. 弁言

词向量(word embeddings)是天然语言处置惩罚(NLP)中用于表示单词语义的焦点技术。它们通过将单词映射到高维向量空间,使得相似的单词在空间中具有靠近的表示。然而,纵然利用相同的数据和模型,词向量的表示仍然可能发生变革,这种征象被称为词向量的可变性(variability of word embeddings)
2. 词向量可变性的泉源

纵然在以下因素保持不变的情况下:

词向量仍可能有所不同。这种可变性主要来自:
3. 如何衡量词向量的可变性

我们通常利用**最近邻同等性(Nearest Neighbor Consistency)**来评估同一单词在不同训练运行中的稳固性。
3.1 最近邻同等性

对于一个单词 w:

公式:
                                         Overlap                            (                            w                            )                            =                                                   ∣                                  N                                               N                                     k                                              (                                  w                                  ,                                  V                                  1                                  )                                  ∩                                  N                                               N                                     k                                              (                                  w                                  ,                                  V                                  2                                  )                                  ∣                                          k                                            \text{Overlap}(w) = \frac{|NN_k(w, V1) \cap NN_k(w, V2)|}{k}                     Overlap(w)=k∣NNk​(w,V1)∩NNk​(w,V2)∣​
此中:

如果重叠度较高,则词向量表示较稳固;如果重叠度较低,则表示同一个单词在不同的训练过程中体现出了较大的变革。
3.2 余弦相似度变革

                                         Sim                            (                            w                            )                            =                            cos                            ⁡                            (                                       v                               w                                           V                                  1                                                 ,                                       v                               w                                           V                                  2                                                 )                                  \text{Sim}(w) = \cos(\mathbf{v}_w^{V1}, \mathbf{v}_w^{V2})                     Sim(w)=cos(vwV1​,vwV2​)
此中:

4. 词向量可变性的影响

4.1 对 NLP 任务的影响


4.2 办理方案

   同时,低频词更容易受影响

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4