LiteratureReading:[2014] GloVe: Global Vectors for Word Representation

打印 上一主题 下一主题

主题 986|帖子 986|积分 2958

一、文献简明(zero)

   领域:NLP
标题:GloVe: Global Vectors for Word Representation(GloVe: 用于单词表示的全局向量)
作者:Pennington et al.
  贡献:提出了GloVe模型,通过全局词共现矩阵学习词向量,联合了全局统计信息和局部上下文信息。
链接:https://aclanthology.org/D14-1162.pdf
  二、快速预览(first)

1、标题分析

标题“GloVe: Global Vectors for Word Representation”指的是一种用于天然语言处理(NLP)的词向量表示方法。GloVe(Global Vectors for Word Representation)是一种算法,它通过统计词与词之间的共现频率来学习词的向量表示。这种方法可以或许捕获到词与词之间的语义关系,从而在各种NLP任务中,如文本分类、感情分析、机器翻译等,提供有用的特征表示。
标题中的关键词分析如下:

  • GloVe:这是算法的名称,代表全局词向量。
  • Global Vectors:指的是算法天生的词向量是全局的,即它们是在考虑整个语料库的基础上天生的,而不是基于单个句子或文档。
  • Word Representation:指的是词的表示方法,这里特指使用向量来表示词,以便在机器学习模型中使用。
GloVe算法的一个重要优点是它可以或许天生具有语义相似性的词向量,这意味着在向量空间中相近的词在语义上也是相近的。这使得GloVe在处理词义消歧、类比推理等任务时表现出色。
2、作者介绍

这段文字提供了三位作者的根本信息,他们分别是:

  • Jeffrey Pennington - 斯坦福大学盘算机科学系的成员。
  • Richard Socher - 同样附属于斯坦福大学盘算机科学系。
  • Christopher D. Manning - 也是斯坦福大学盘算机科学系的成员。
这三位作者都与斯坦福大学(Stanford University)有关联,该大学位于美国加利福尼亚州的斯坦福市(Stanford, CA 94305)。此外,还提供了他们的电子邮件地址,分别是:


  • jpenn@stanford.edu - 这是Jeffrey Pennington的电子邮件地址。
  • richard@socher.org - 这是Richard Socher的电子邮件地址。
  • manning@stanford.edu - 这是Christopher D. Manning的电子邮件地址。
这些信息通常出现在学术论文的作者信息部分,用于读者联系作者或相识他们的研究配景。
3、引用数

……
4、摘要分析


(1)翻译

迩来用于学习词向量空间表示的方法已经成功地利用向量运算捕获到了细粒度的语义和句法规律,但这些规律的劈头仍然不明白。我们分析并明白了模型属性,这些属性是词向量中出现这些规律所必须的。结果是一种新的全局对数双线性回归模型,该模型联合了文献中两大重要模型家族的优势:全局矩阵分解和局部上下文窗口方法。我们的模型通过仅在词-词共现矩阵的非零元素上进行训练,有用地利用了统计信息,而不是在整个稀疏矩阵或大型语料库中的单个上下文窗口上。该模型产生了具有有意义子结构的向量空间,这一点通过其在迩来的一项词类比任务中75%的表现得到了证明。它还在相似性任务和命名实体辨认上逾越了相关模型。
(2)分析

这段摘要介绍了一种新的词向量表示学习方法,即GloVe模型。以下是关键点的分析:

  • 配景:作者指出,尽管现有的词向量学习方法可以或许捕获到语义和句法规律,但这些规律的来源尚不清晰。
  • 研究目标:作者旨在分析和明白模型属性,以便更好地理解这些规律是如安在词向量中出现的。
  • 方法:作者提出了一种新的全局对数双线性回归模型。这种模型联合了全局矩阵分解和局部上下文窗口方法的优点,旨在更有用地利用统计信息。
  • 优势:与传统方法差别,GloVe模型仅在词-词共现矩阵的非零元素上进行训练,而不是在整个稀疏矩阵或大型语料库中的单个上下文窗口上。这种方法提高了服从,并可以或许捕获到词向量中的有意义子结构。
  • 结果:GloVe模型在词类比任务中的表现达到了75%,而且在相似性任务和命名实体辨认上逾越了相关模型。
  • 贡献:GloVe模型的贡献在于它提供了一种新的视角来理解词向量中的语义和句法规律,而且通过实验验证了其有用性。
总的来说,这段摘要清晰地介绍了GloVe模型的配景、目标、方法、优势和结果,为读者提供了一个全面的概述。
5、总结分析

(1)翻译

迩来,人们非常关注一个问题,即分布词表示是否最好从基于计数的方法或基于猜测的方法中学习。现在,基于猜测的模型获得了相当大的支持;比方,Baroni等人(2014)认为这些模型在一系列任务中表现更好。在这项工作中,我们认为这两类方法在根本上并没有太大的差别,因为它们都探测了语料库的底层共现统计数据,但基于计数的方法捕获全局统计数据的服从大概是一个优势。我们构建了一个模型,该模型利用了计数数据的重要优势,同时捕获了迩来基于对数双线性猜测方法(如word2vec)中普遍存在的有意义的线性子结构。结果,GloVe成为了一种新的全局对数双线性回归模型,用于无监督学习词表示,它在词类比、词相似性和命名实体辨认任务上逾越了其他模型。
(2)分析

这篇总结讨论了词向量表示学习方法的最新进展,特殊是基于计数和基于猜测的方法。以下是关键点的分析:

  • 配景:作者提到了两种重要的词向量学习方法:基于计数的方法和基于猜测的方法。基于猜测的方法,如word2vec,近年来获得了广泛的关注和支持。
  • 观点:作者认为,尽管这两种方法在表面上看起来差别,但它们在根本上并没有太大的区别,因为它们都依靠于语料库中的共现统计数据。
  • 优势:作者指出,基于计数的方法在捕获全局统计数据方面大概更有用率,这大概是一个优势。
  • 模型构建:作者构建了一个模型,该模型联合了基于计数方法的优势和基于猜测方法中有意义的线性子结构。
  • 结果:这个模型,即GloVe,是一种新的全局对数双线性回归模型,它在无监督学习词表示方面表现出色,并在多个NLP任务上逾越了其他模型。
  • 贡献:GloVe模型的贡献在于它提供了一种新的视角来联合两种方法的优势,并在多个任务上验证了其有用性。
总的来说,这篇总结清晰地阐述了作者的研究动机、方法、结果和贡献,为读者提供了一个全面的概述。
6、部分图表


图4展示了在词类比任务上的总体准确率随训练时间的变化情况,比较了GloVe模型与两种其他模型:CBOW(Continuous Bag of Words)和Skip-Gram。图表分为两个子图:
(a) GloVe vs CBOW



  • 横轴:迭代次数(对于GloVe)和负样本数量(对于CBOW)。
  • 纵轴:准确率(百分比)。
  • 结果:GloVe模型的准确率随着迭代次数的增长而快速上升,并在大约2小时的训练时间内达到接近72%的准确率,之后略有波动但总体保持稳定。相比之下,CBOW模型的准确率在达到大约66%后开始下降,显示出随着负样本数量的增长,模型性能有所下降。
(b) GloVe vs Skip-Gram



  • 横轴:迭代次数(对于GloVe)和负样本数量(对于Skip-Gram)。
  • 纵轴:准确率(百分比)。
  • 结果:GloVe模型的准确率随着迭代次数的增长而上升,并在大约3小时的训练时间内达到接近72%的准确率,之后保持稳定。Skip-Gram模型的准确率在负样本数量增长时表现出波动,但总体上略低于GloVe模型,最高达到大约70%。
总结



  • GloVe模型在词类比任务上的表现优于CBOW和Skip-Gram模型,尤其是在训练时间较长时,其准确率更高且更稳定。
  • CBOW模型在达到一定准确率后,随着负样本数量的增长,性能有所下降。
  • Skip-Gram模型的性能略低于GloVe,且随着负样本数量的增长,准确率表现出波动。
这些结果表明,GloVe模型在捕获词向量空间中的语义和句法规律方面更为有用,尤其是在处理大规模语料库时。此外,GloVe模型在训练服从和终极性能上都优于CBOW和Skip-Gram模型。
……
7、弁言分析

翻译

(1)翻译

语言的语义向量空间模型用实值向量表示每个词。这些向量可以用作多种应用中的特征,比方信息检索(Manning等人,2008)、文档分类(Sebastiani,2002)、问答(Tellex等人,2003)、命名实体辨认(Turian等人,2010)和解析(Socher等人,2013)。
大多数词向量方法依靠于词向量对之间的距离或角度作为评估这类词表示集内在质量的重要方法。迩来,Mikolov等人(2013c)引入了一种新的基于词类比的评估方案,该方案探测词向量空间的更精细结构,通过检查词向量之间的各种差异维度,而不是它们之间的标量距离。比方,类比“国王对女王正如男人对女人”应该通过向量方程 king - queen = man - woman 在向量空间中编码。这种评估方案倾向于产生意义维度的模型,从而捕获到分布式表示的多聚类概念(Bengio,2009)。
学习词向量的两个重要模型家族是:1)全局矩阵分解方法,如潜在语义分析(LSA)(Deerwester等人,1990)和2)局部上下文窗口方法,如Mikolov等人(2013c)的skip-gram模型。现在,这两个家族都有明显的缺点。虽然像LSA这样的方法可以或许有用地利用统计信息,但它们在词类比任务上表现相对较差,表明向量空间结构次优。像skip-gram这样的方法大概在类比任务上做得更好,但它们未能充分利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共现计数上。
在这项工作中,我们分析了产生意义的线性方向所需的模型属性,并认为全局对数双线性回归模型适合这样做。我们提出了一种特定的加权最小二乘模型,该模型在全局词-词共现计数上进行训练,从而有用利用统计数据。该模型产生了具有有意义子结构的词向量空间,这一点通过其在词类比数据集上的75%的最新性能得到了证明。我们还证明了我们的方法在几个词相似性任务上逾越了其他当前方法,而且在一个常见的命名实体辨认(NER)基准上也表现出色。
我们提供了模型的源代码以及训练好的词向量在 http://nlp.stanford.edu/projects/glove/。
(2)分析

这篇弁言介绍了语义向量空间模型的概念,以及它们在各种天然语言处理(NLP)任务中的应用。以下是关键点的分析:

  • 配景:作者首先介绍了词向量空间模型的根本概念,即用实值向量表示每个词,并指出这些向量在多种NLP任务中的应用。
  • 评估方法:作者提到了大多数词向量方法依靠于词向量对之间的距离或角度来评估词表示的质量,并介绍了一种新的基于词类比的评估方案。
  • 现有模型:作者讨论了两种重要的词向量学习方法:全局矩阵分解方法(如LSA)和局部上下文窗口方法(如skip-gram模型),并指出了它们各自的优缺点。
  • 研究动机:作者指出现有方法的局限性,即LSA在词类比任务上表现不佳,而skip-gram未能充分利用语料库的统计数据。
  • 研究贡献:作者提出了一种新的全局对数双线性回归模型,该模型在全局词-词共现计数上进行训练,可以或许有用利用统计数据,并在多个任务上取得了优异的性能。
  • 资源提供:作者提供了模型的源代码和训练好的词向量,以便其他研究职员可以使用和参考。
总的来说,这篇弁言清晰地阐述了研究的配景、动机、方法和贡献,并为读者提供了进一步研究的资源。
8、全部标题


  • GloVe: Global Vectors for Word Representation
    翻译:GloVe:用于词表示的全局向量
  • Abstract
    翻译:摘要
  • 1 Introduction
    翻译:1 弁言
  • 2 Related Work
    翻译:2 相关工作
  • 3 The GloVe Model
    翻译:3 GloVe模型
  • 3.1 Relationship to Other Models
    翻译:3.1 与其他模型的关系
  • 3.2 Complexity of the model
    翻译:3.2 模型的复杂性
  • 4 Experiments
    翻译:4 实验
  • 4.1 Evaluation methods
    翻译:4.1 评估方法
  • 4.2 Corpora and training details
    翻译:4.2 语料库和训练细节
  • 4.3 Results
    翻译:4.3 结果
  • 4.4 Model Analysis: Vector Length and Context Size
    翻译:4.4 模型分析:向量长度和上下文大小
  • 4.5 Model Analysis: Corpus Size
    翻译:4.5 模型分析:语料库大小
  • 4.6 Model Analysis: Run-time
    翻译:4.6 模型分析:运行时间
  • 4.7 Model Analysis: Comparison with word2vec
    翻译:4.7 模型分析:与word2vec的比较
  • 5 Conclusion
    翻译:5 结论
  • Acknowledgments
    翻译:致谢
  • References
    翻译:参考文献
9、参考文献

以下是提取的参考文献列表及其翻译:

  • Tom M. Apostol. 1976. Introduction to Analytic Number Theory. Introduction to Analytic Number Theory.
    翻译:Tom M. Apostol。1976。《分析数论导引》。《分析数论导引》。
  • Marco Baroni, Georgiana Dinu, and Germ´an Kruszewski. 2014. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. In ACL.
    翻译:Marco Baroni,Georgiana Dinu 和 Germán Kruszewski。2014。不要计数,要猜测!上下文计数与上下文猜测语义向量的系统比较。载于ACL(盘算语言学协会年会)。
  • Yoshua Bengio. 2009. Learning deep architectures for AI. Foundations and Trends in Machine Learning.
    翻译:Yoshua Bengio。2009。学习人工智能的深度架构。《机器学习基础与趋势》。
  • Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Janvin. 2003. A neural probabilistic language model. JMLR, 3:1137–1155.
    翻译:Yoshua Bengio,R´ejean Ducharme,Pascal Vincent 和 Christian Janvin。2003。一种神经概率语言模型。《机器学习研究杂志》3:1137–1155。
  • John A. Bullinaria and Joseph P. Levy. 2007. Extracting semantic representations from word cooccurrence statistics: A computational study. Behavior Research Methods, 39(3):510–526.
    翻译:John A. Bullinaria 和 Joseph P. Levy。2007。从词共现统计中提取语义表示:一项盘算研究。《举动研究方法》39(3):510–526。
  • Dan C. Ciresan, Alessandro Giusti, Luca M. Gambardella, and J¨urgen Schmidhuber. 2012. Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860.
    翻译:Dan C. Ciresan,Alessandro Giusti,Luca M. Gambardella 和 Jürgen Schmidhuber。2012。深度神经网络在电子显微镜图像中分割神经元膜。载于NIPS(神经信息处理系统大会),页码2852–2860。
  • Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: deep neural networks with multitask learning. In Proceedings of ICML, pages 160–167.
    翻译:Ronan Collobert 和 Jason Weston。2008。一种用于天然语言处理的统一架构:具有多任务学习的深度神经网络。载于ICML(国际机器学习大会论文集),页码160–167。
  • Ronan Collobert, Jason Weston, L´eon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. 2011. Natural Language Processing (Almost) from Scratch. JMLR, 12:2493–2537.
    翻译:Ronan Collobert,Jason Weston,Léon Bottou,Michael Karlen,Koray Kavukcuoglu 和 Pavel Kuksa。2011。(几乎)从零开始的天然语言处理。《机器学习研究杂志》12:2493–2537。
  • Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. 1990. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41.
    翻译:Scott Deerwester,Susan T. Dumais,George W. Furnas,Thomas K. Landauer 和 Richard Harshman。1990。通过潜在语义分析进行索引。《美国信息科学学会学报》41。
  • John Duchi, Elad Hazan, and Yoram Singer. 2011. Adaptive subgradient methods for online learning and stochastic optimization. JMLR, 12.
    翻译:John Duchi,Elad Hazan 和 Yoram Singer。2011。用于在线学习和随机优化的自顺应次梯度方法。《机器学习研究杂志》12。
  • Lev Finkelstein, Evgenly Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. 2001. Placing search in context: The concept revisited. In Proceedings of the 10th international conference on World Wide Web, pages 406–414. ACM.
    翻译:Lev Finkelstein,Evgenly Gabrilovich,Yossi Matias,Ehud Rivlin,Zach Solan,Gadi Wolfman 和 Eytan Ruppin。2001。将搜索置于上下文中:概念再探。载于第十届国际万维网大会论文集,页码406–414。ACM(美国盘算机学会)。
  • Eric H. Huang, Richard Socher, Christopher D. Manning, and Andrew Y. Ng. 2012. Improving Word Representations via Global Context and Multiple Word Prototypes. In ACL.
    翻译:Eric H. Huang,Richard Socher,Christopher D. Manning 和 Andrew Y. Ng。2012。通过全局上下文和多个词原型改进词表示。载于ACL(盘算语言学协会年会)。
  • Rémi Lebret and Ronan Collobert. 2014. Word embeddings through Hellinger PCA. In EACL.
    翻译:Rémi Lebret 和 Ronan Collobert。2014。通过Hellinger PCA进行词嵌入。载于EACL(欧洲盘算语言学协会年会)。
  • Omer Levy, Yoav Goldberg, and Israel Ramat-Gan. 2014. Linguistic regularities in sparse and explicit word representations. CoNLL-2014.
    翻译:Omer Levy,Yoav Goldberg 和 Israel Ramat-Gan。2014。稀疏和显式词表示中的语言学规律。CoNLL-2014(盘算天然语言学习会议)。
  • Kevin Lund and Curt Burgess. 1996. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instrumentation, and Computers, 28:203–208.
    翻译:Kevin Lund 和 Curt Burgess。1996。从词汇共现产生高维语义空间。《举动研究方法、仪器和盘算机》28:203–208。
  • Minh-Thang Luong, Richard Socher, and Christopher D Manning. 2013. Better word representations with recursive neural networks for morphology. CoNLL-2013.
    翻译:Minh-Thang Luong,Richard Socher 和 Christopher D Manning。2013。使用形态学递归神经网络获得更好的词表示。CoNLL-2013(盘算天然语言学习会议)。
  • Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013a. Efficient Estimation of Word Representations in Vector Space. In ICLR Workshop Papers.
    翻译:Tomas Mikolov,Kai Chen,Greg Corrado 和 Jeffrey Dean。2013a。向量空间中词表示的有用估计。载于ICLR(国际学习表示会议)研讨会论文集。
  • Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013b. Distributed representations of words and phrases and their compositionality. In NIPS, pages 3111–3119.
    翻译:Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado 和 Jeffrey Dean。2013b。词和短语的分布式表示及其组合性。载于NIPS(神经信息处理系统大会),页码3111–3119。
  • Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. 2013c. Linguistic regularities in continuous space word representations. In HLTNAACL.
    翻译:Tomas Mikolov,Wen-tau Yih 和 Geoffrey Zweig。2013c。连续空间词表示中的语言学规律。载于HLT-NAACL(人机交互中的天然语言技术-北美盘算语言学协会年会)。
  • George A. Miller and Walter G. Charles. 1991. Contextual correlates of semantic similarity. Language and cognitive processes, 6(1):1–28.
    翻译:George A. Miller 和 Walter G. Charles。1991。语义相似性的上下文关联。《语言和认知过程》6(1):1–28。
  • Andriy Mnih and Koray Kavukcuoglu. 2013. Learning word embeddings efficiently with noise-contrastive estimation. In NIPS.
    翻译:Andriy Mnih 和 Koray Kavukcuoglu。2013。使用噪声对比估计有用学习词嵌入。载于NIPS(神经信息处理系统大会)。
  • Douglas L. T. Rohde, Laura M. Gonnerman, and David C. Plaut. 2006. An improved model of semantic similarity based on lexical co-occurrence. Communications of the ACM, 8:627–633.
    翻译:Douglas L. T. Rohde,Laura M. Gonnerman 和 David C. Plaut。2006。基于词汇共现的语义相似性改进模型。《ACM通讯》8:627–633。
  • Herbert Rubenstein and John B. Goodenough. 1965. Contextual correlates of synonymy. Communications of the ACM, 8(10):627–633.
    翻译:Herbert Rubenstein 和 John B. Goodenough。1965。同义词的上下文关联。《ACM通讯》8(10):627–633。
  • Fabrizio Sebastiani. 2002. Machine learning in automated text categorization. ACM Computing Surveys, 34:1–47.
    翻译:Fabrizio Sebastiani。2002。自动文本分类中的机器学习。《ACM盘算观察》34:1–47。
  • Richard Socher, John Bauer, Christopher D. Manning, and Andrew Y. Ng. 2013. Parsing With Compositional Vector Grammars. In ACL.
    翻译:Richard Socher,John Bauer,Christopher D. Manning 和 Andrew Y. Ng。2013。使用组合向量文法进行解析。载于ACL(盘算语言学协会年会)。
  • Stefanie Tellex, Boris Katz, Jimmy Lin, Aaron Fernandes, and Gregory Marton. 2003. Quantitative evaluation of passage retrieval algorithms for question answering. In Proceedings of the SIGIR Conference on Research and Development in Informaion Retrieval.
    翻译:Stefanie Tellex,Boris Katz,Jimmy Lin,Aaron Fernandes 和 Gregory Marton。2003。用于问答的段落检索算法的定量评估。载于SIGIR(国际信息检索研究与发展会议)论文集。
  • Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In CoNLL-2003.
    翻译:Erik F. Tjong Kim Sang 和 Fien De Meulder。2003。CoNLL-2003共享任务介绍:语言无关的命名实体辨认。载于CoNLL-2003(盘算天然语言学习会议)。
  • Joseph Turian, Lev Ratinov, and Yoshua Bengio. 2010. Word representations: a simple and general method for semi-supervised learning. In Proceedings of ACL, pages 384–394.
    翻译:Joseph Turian,Lev Ratinov 和 Yoshua Bengio。2010。词表示:一种简单且通用的半监督学习方法。载于ACL(盘算语言学协会年会论文集),页码384–394。
  • Mengqiu Wang and Christopher D. Manning. 2013. Effect of non-linear deep architecture in sequence labeling. In Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP).
    翻译:Mengqiu Wang 和 Christopher D. Manning。2013。非线性深度架构在序列标注中的结果。载于第六届国际天然语言处理联合会议(IJCNLP)论文集。
三、重点阅读(second)

四、深入理解(third)

五、技术复现(forth)


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南飓风

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表