【自然语言处理】P1 自然语言处理概述
什么是自然语言处理定义
自然语言指的是人类的语言,如中文、英语等,处理特教唆用盘算机技术处理,所以自然语言处理(NLP)就是教唆用盘算机处理人类的语言。
自然语言处理属语言学、盘算机科学、信息工程和人工智能的交织范畴,涉及的内容非常广泛。人类的语言本身是复杂的,所以自然语言处理的任务也是多种多样的。
常用术语
自然语言处理中的常用术语如下:
[*]语料:语言质料,积累大量的词条可以构成一个语料库。
[*]自然语言:自然演化形成的人类语言。
[*]情势化语言:用数学方法准确定义的语言,如盘算机程序计划语言。
[*]分词:把一个句子分解为多个词语。
[*]词频:一个词在一定范围的语料中出现的次数。
[*]呆板学习(Machine Learning):通过算法和程序让盘算机从数据中自主学习知识。
[*]深度学习(Deep Learning):使用深度神经网络的呆板学习方法。
[*]人工神经网络(Artificial Neural Network):简称神经网络,是一种模拟人脑神经元处理信息的过程的模子。
[*]练习模子:在练习过程中使用学习型算法,根据练习数据更新自身参数,从而更好地解决问题。
自然语言处理的任务
广义地说,自然语言处理包含对各种情势地自然语言的处理(如语音识别、光学字符识别),还包括明确笔墨的寄义(如自然语言明确),还大概须要让呆板有本身组织语言的本领(即自然语言天生),甚至还须要输出这些语言(如语音合成)等。
笼统地说,人们定义自然语言处理中重点任务有两个:语言明确和语言天生。处理的对象可分为3种:词语/字、句子、篇章。
具体地说,自然语言处理的任务有如下4类:
[*]序列标注:给句子或者篇章中的每个词或字一个标签,包含如分词、词性标注等
[*]文天职类:给句子或篇章一个标签,包含如情感分析等
[*]关系判断:判断多个词语、句子、篇章之间的关系,包含如选词填空等
[*]语言天生:产生自然语言的字、词、句子、篇章等,包含如问答体系、呆板翻译
自然语言处理的发展历程
[*]基于规则的方法:早期自然语言处理依靠人工设定的规则,语言学家研究语言本身的规律,把归纳好的规则编写成程序,告诉盘算机应该怎么做。劣势在于,简单的规则和有限的词汇无法顺应多变的自然语言。
[*]经验主义和理性主义:经验主义主张通过观察得到规律,理性主义主张通过推理而不是观察得到规律。
[*]呆板学习方法:随着数据的积累和盘算机性能的进步,基于概率与统计的呆板学习和深度学习方法在自然语言处理范畴的体现越来越好。
[*]Word2vec模子(Google,2013),可以从语料中自主学习得出每个词语的向量表示,通过向量间的数学关系反映词语之间的语义关系。
[*]Seq2seq模子(Google,2014),在呆板翻译范畴的性能明显超过传统模子。
[*]BERT模子(Google,2018),开始采用 Transformer 框架,同时关注 encoder 和 decoder 两头。
[*]GPT-3模子(OpenAI,2021),同样基于自留意力机制,只关注天生部门,推出 ChatGPT 产物。
[*]ChatGLM、Qwen、llama 等(2022-至今)
自然语言处理的挑战
自然语言处理任务的困难在于:自然语言的灵活多样,没有明确的规则和边界,且自然语言会随着时间而发生变化,新的词语和表达方式也大概不停出现。
实际上,人们在明确句子时,会选择本身以为更合理的意思,有一些句子虽然可以有两种意思,但是根据经验我们可以判断其确切的寄义,而盘算机则不然。
[*] 歧义问题:自然语言中存在大量的歧义现象,同样的笔墨大概有差别的寄义,而同样的意思也可以用完全差别的笔墨来表达。
[*] e . g . e.g. e.g. 明确歧义:“他先容了他们公司自动化所取得的成绩”
[*] e . g . e.g. e.g. 指代歧义:“小明做了功德,老师表扬了小明,他很高兴”
[*] 语言的多样性:自然语言中,完全相同的意思可以用截然差别的方式来表达,所以自然语言处理的方法不仅要能顺应自然语言的多样性,还要使输出的内容多样而自然。
[*] 未登录词:自然语言中随时大概有新词汇和新用法的出现,许多自然语言处理的方法依靠预先定义或者在学习、练习中天生的词表。未登录词就是指此词表中不存在的词语,或者练习过程中未出现过的词语。因为缺乏这些词的信息,所以处理未登录词或原有词汇的新用法是困难的。
[*] 数据稀疏:语料中,除了少数常用词汇出现的频次较高,还有许多不常用的词汇,虽然这些不常用的词汇的数目多,但是单个词汇出现的次数较少。词频出现28分布。
自然语言处理的常用技术
TF-IDF
TF-IDF 用于评估一个词在一定范围的语料中的重要程度。
[*]TF:词频(Term Frequency),指一个词在一定范围的语料中出现的次数,词在语料中出现的次数越多说明其越重要。
[*]IDF:逆文本频率(Inverse Document Frequency),而出现次数许多的这个词,大概是“的”这样在全部语料中出现次数都许多的词,所以出现了逆文本频率,即这个词在某个语料中出现了,但是在整个语料库中出现得很少,就能说明这个词在这个语料中很重要。
词嵌入
词嵌入(word embedding),使用向量表示词语。
因自然语言处理是使用盘算机技术处理自然语言,所以须要用盘算机能明确的符号表示字或词。问题在于,一是词语的海量,二是简单的编码无法表达词语之间的语义关系。
词嵌入使用特定的算法,使用多维向量来表示一个词语,从而不忽略词语间的关系。
分词
分词指将句子分别为词语序列。
英文分词可以直接通过空格分隔开。中文分词会因差别的分词方案让句子体现出差别的寄义,故需做探究。
循环神经网络
循环神经网络(Recurrent Neural Network, RNN),用于处理序列数据的神经网络,得当处理不定长度的句子分析序列。
留意力机制
留意力机制(Attention Mechanism)是自然语言处理范畴以致深度学习范畴中非常重要的技术,源于人们对人类视觉机制的研究。
人类在观察事物时,会把留意力分配到关键的地方,而相对忽视其他细节。在自然语言处理中,通过使用留意力机制,模子会将重要的地方分配更高的权重。
预练习
预练习是一种迁移学习方法,通过预先在一个大规模的语料库上练习,通过计划通用的任务,得到一个通用的预练习权重。在实际应用之前,在预练习的基础上,使用相应场景的数据和任务再进行二次练习。
预练习的利益在于,使用较大规模的语料,模子可以对语言有全面的学习,再特定场景和进行特定数据练习时,可以使用更小的数据集和进行更少的练习得到相对好的结果。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]