分布式数据库8.2 NLP主流任务和快速实践——NLP主流任务和快速实践

农民发表于 3 天前

8.2 NLP主流任务和快速实践——NLP主流任务和快速实践

8.2 NLP主流任务和快速实践——NLP主流任务和快速实践

天然语言处理（natural language processing，简称NLP）是盘算机科学和人工智能范畴重要的方向，自2018年BERT预训练模子被提出以来，天然语言处理范畴的各项任务指标不断被刷新，甚至在一些任务上已经高出了人类的基准值，比方阅读明白评测数据SQuAD 1.0。
预训练模子基于新的天然语言处理任务范式：预训练+微调，极大推动了天然语言处理范畴的发展。
基于这个新的训练范式，预训练模子可以被广泛应用于NLP范畴的各项任务中。一般来讲，比力常见的经典NLP任务包罗以下四类：

[*]分类式任务：给定一串文本，判断该文本的种别标签
[*]问答式任务：给定题目和文档，要求从文档中抽取出题目的答案
[*]序列标注式任务：给定一串文本，输出对应的标签序列
[*]生成式任务：给定一串文本，同时要求模子输出一串文本
本节将解说怎样基于预训练模子BERT去建模分类式任务、问答式任务和序列标注式任务，并基于文天职类式任务举行实践，帮助各人进一步明白。
1. 基于BERT实现NLP主流任务

预训练模子BERT于2018年被谷歌提出，在当时刷新了11项天然语言处理任务，推动天然语言评测数据集GLUE分数达到80.5%（相比之前的SOTA模子，绝对提拔7.7%）；推动天然语言推理数据集MultiNLI 分数达到86.7%（绝对提拔4.6%）；推动阅读明白数据集SQuAD v1.1 分数达到93.2%（绝对提拔1.5%）；推动SQuAD v2.0 分数达到83.1%（绝对提拔5.1%），BERT对天然语言处理中的作用可见一斑，是天然语言处理范畴名副着实的里程碑。
那怎样基于BERT去建模天然语言处理范畴的任务呢？下面我们以分类式任务、问答式任务和序列标注式任务为例，解说基于BERT实现这些任务的方式。
1.1 分类式任务

一般来讲，分类式任务根据输入语句的数量是1句话还是2句话，可以将分类式任务分为单句分类任务和句对分类任务。
其中，比力常见的单句分类任务包罗文本种别分类，情感极性分类等，此类任务基于BERT模子可以按照图1.1a 举行建模，即构造输入序列后，利用 token 位置的输出向量举行单句文天职类。
比力常见的句对分类任务是文本匹配，其主要用于判断输入的两句话在语义上是否相似。其经典的建模方式如图1.1b 所示，和单句分类任务差别之处在于，句对分类任务需要对两句话利用 token拼接为一串序列，然后输入BERT模子，其同样采用 token 位置的输出向量举行单句文天职类。
1.2 问答式任务

问答式任务是指在给定题目和文档，要求从文档中抽取出题目的答案，比力常见的任务是智能问答和阅读明白。
该类任务的建模方式如图1.1c 所示，利用 token 将题目和文档举行拼接后输入BERT模子，同时从输出的序列向量中，去定位答案的起始和结束位置。
1.3 序列标注式任务

序列标注式任务：给定一串文本，输出对应的标签序列，比力常见的任务是命名实体识别、文天职词、词性标注等序列到序列的任务。
该类任务的建模方式如图1.1d 所示，输入一串文本后，根据输入文本的序列向量去猜测文本序列中每个token的标签。

https://img-blog.csdnimg.cn/img_convert/52fa5de923f5abd0973afb8aaeacb6c9.png
图1.1 基于BERT的主流建模方式
在学习到这么多任务的建模方式后，下面我们基于分类式任务中的文本匹配任务举行实践，带领各人体验利用BERT建模文天职类任务。
2. 基于预训练模子BERT实现文本匹配任务

文本匹配是天然语言处理范畴底子的焦点任务之一，其主要用于判断给定的两句文本是否语义相似。文本匹配技能具有广泛的应用场景，好比信息检索、问答系统，文本蕴含等场景。
比方，文本匹配技能可以用于判断以下三句话之间的语义相似关系：

[*]苹果在什么时间成熟？
[*]苹果一般在几月份成熟？
[*]苹果手机什么时间可以买？
文本匹配技能期望可以大概使得盘算机自动判断第1和第2句话是语义相似的，第1和第3句话，第2和第3句话之间是不相似的。
本节将基于PaddleNLP库中的BERT模子建模文本匹配任务，带领各人体验预训练+微调的训练新范式。由于PaddleNLP库中的BERT模子已经预训练过，因此本节将基于预训练后的BERT模子，在LCQMC数据集上微调BERT，建模文本匹配任务。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

8.2 NLP主流任务和快速实践——NLP主流任务和快速实践