目前关于文本表现模型重要有以下两种:
- 文本概念表现模型:以(概率)潜伏语义分析(Latent Semantic Analysis, LSA)和潜伏狄利克雷分布(Latent Dirichlet allocation, LDA)为代表的主题模型,旨在发掘文本中的隐含主题或概念,文本将被表现为主题的分布向量
- 深度表现学习模型:通过深度学习模型以最优化特定目标函数(比方语言模型似然度)的方式在分布式向量空间中学习文本的低维实数向量表现
词语的表现学习
词语通常表现为词向量,称为look_up_table,我们可以对
|