8.2 NLP主流任务和快速实践——NLP主流任务和快速实践
8.2 NLP主流任务和快速实践——NLP主流任务和快速实践天然语言处理(natural language processing,简称NLP)是盘算机科学和人工智能范畴重要的方向,自2018年BERT预训练模子被提出以来,天然语言处理范畴的各项任务指标不断被刷新,甚至在一些任务上已经高出了人类的基准值,比方阅读明白评测数据SQuAD 1.0。
预训练模子基于新的天然语言处理任务范式:预训练+微调,极大推动了天然语言处理范畴的发展。
基于这个新的训练范式,预训练模子可以被广泛应用于NLP范畴的各项任务中。一般来讲,比力常见的经典NLP任务包罗以下四类:
[*]分类式任务:给定一串文本,判断该文本的种别标签
[*]问答式任务:给定题目和文档,要求从文档中抽取出题目的答案
[*]序列标注式任务:给定一串文本,输出对应的标签序列
[*]生成式任务:给定一串文本,同时要求模子输出一串文本
本节将解说怎样基于预训练模子BERT去建模分类式任务、问答式任务和序列标注式任务,并基于文天职类式任务举行实践,帮助各人进一步明白。
1. 基于BERT实现NLP主流任务
预训练模子BERT于2018年被谷歌提出,在当时刷新了11项天然语言处理任务,推动天然语言评测数据集GLUE分数达到80.5%(相比之前的SOTA模子,绝对提拔7.7%);推动天然语言推理数据集MultiNLI 分数达到86.7%(绝对提拔4.6%);推动阅读明白数据集SQuAD v1.1 分数达到93.2%(绝对提拔1.5%);推动SQuAD v2.0 分数达到83.1%(绝对提拔5.1%),BERT对天然语言处理中的作用可见一斑,是天然语言处理范畴名副着实的里程碑。
那怎样基于BERT去建模天然语言处理范畴的任务呢?下面我们以分类式任务、问答式任务和序列标注式任务为例,解说基于BERT实现这些任务的方式。
1.1 分类式任务
一般来讲,分类式任务根据输入语句的数量是1句话还是2句话,可以将分类式任务分为单句分类任务和句对分类任务。
其中,比力常见的单句分类任务包罗文本种别分类,情感极性分类等,此类任务基于BERT模子可以按照 图1.1a 举行建模,即构造输入序列后,利用 token 位置的输出向量举行单句文天职类。
比力常见的句对分类任务是文本匹配,其主要用于判断输入的两句话在语义上是否相似。其经典的建模方式如 图1.1b 所示, 和单句分类任务差别之处在于,句对分类任务需要对两句话利用 token拼接为一串序列,然后输入BERT模子,其同样采用 token 位置的输出向量举行单句文天职类。
1.2 问答式任务
问答式任务是指在给定题目和文档,要求从文档中抽取出题目的答案,比力常见的任务是智能问答和阅读明白。
该类任务的建模方式如 图1.1c 所示,利用 token 将题目和文档举行拼接后输入BERT模子,同时从输出的序列向量中,去定位答案的起始和结束位置。
1.3 序列标注式任务
序列标注式任务:给定一串文本,输出对应的标签序列,比力常见的任务是命名实体识别、文天职词、词性标注等序列到序列的任务。
该类任务的建模方式如 图1.1d 所示,输入一串文本后,根据输入文本的序列向量去猜测文本序列中每个token的标签。
https://img-blog.csdnimg.cn/img_convert/52fa5de923f5abd0973afb8aaeacb6c9.png
图1.1 基于BERT的主流建模方式
在学习到这么多任务的建模方式后,下面我们基于分类式任务中的文本匹配任务举行实践,带领各人体验利用BERT建模文天职类任务。
2. 基于预训练模子BERT实现文本匹配任务
文本匹配是天然语言处理范畴底子的焦点任务之一,其主要用于判断给定的两句文本是否语义相似。文本匹配技能具有广泛的应用场景,好比信息检索、问答系统,文本蕴含等场景。
比方,文本匹配技能可以用于判断以下三句话之间的语义相似关系:
[*]苹果在什么时间成熟?
[*]苹果一般在几月份成熟?
[*]苹果手机什么时间可以买?
文本匹配技能期望可以大概使得盘算机自动判断第1和第2句话是语义相似的,第1和第3句话,第2和第3句话之间是不相似的。
本节将基于PaddleNLP库中的BERT模子建模文本匹配任务,带领各人体验预训练+微调的训练新范式。由于PaddleNLP库中的BERT模子已经预训练过,因此本节将基于预训练后的BERT模子,在LCQMC数据集上微调BERT,建模文本匹配任务。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]