发表于 2024-12-2 20:02:25

面向非结构化文本的信息抽取与NLPIR大数据语义智能分析平台

面向非结构化文本的信息抽取

参考链接:https://zhuanlan.zhihu.com/p/455700987
信息抽取的界说

从自然语言文本中抽取实体、关系等事实信息,并形成结构化三元组<头实体,关系,尾实体>的技术。
信息抽取的任务情势

信息抽取任务通常可由关系集合是否给定分为封闭信息抽取和开放信息抽取两大类。其中,封闭信息抽取又根据实体对是否给定分为关系抽取(分类)和实体关系联合抽取两类。
https://i-blog.csdnimg.cn/direct/eefc96071c144c0cb9f4587ca75c41c2.png
封闭信息抽取

关系抽取

基于片段留意力机制的关系抽取
全局理据加强的神经关系抽取(关系理据:实体及上下文关系触发词等指示性信息及其与关系的对应概率)
实体关系联合抽取

相比于关系抽取,实体关系联合抽取不要求给定实体对,而是从文本中直接抽取三元组,其中关系类型来自预先界说的集合。因为不需要指定实体对,以是一段文本中大概会抽取得到多个三元组,差别的三元组相互重叠。
关系/实体解耦之TPLinker
开放信息抽取

基于面向特定目的实体的开放抽取
基于极大团查找的非自回归式开放抽取方法
如何从非结构化的文本中抽取知识?

参考链接:https://www.zhihu.com/question/59624229
基于Schema的监视学习

固定的Schema关系的抽取是指被发现的关系是来自固定的含有大概关系的列表。
在这种案例中,可用数据是一个句子集,每个句子用从它提取的三元组来标注。这意味着原始文本对应到了文本的知识图谱(KG)。
基于长途监视的Schema

长途监视 ,也称弱监视 ,是指当我们想从文本中抽取关系时,有个初始KG作为种子可以用来提取三元组。 一对实体是由链接他们的KG中的每一个关系弱监视的。当然,这种监视噪声很大,例如句子“巴拉克奥巴马比米歇尔奥巴马大3岁”将被(巴拉克奥巴马,米歇尔奥巴马)的KG实例(和全部其他连接奥巴马和他的妻子的实例)弱标记,但显然这两个关系不相同。 如果我们有很多文本和富足大的KG(含有文本中相同的实体),我们可以学习从原始文本到KG的固定Schema关系的映射。
通用Schema

通用Schema通过嵌入文本中包含的来自种子KG(固定Schema的关系)和开放领域的关系来建立KG。 通用Schema的一个巨大上风是它不需要长途监视。通过学习嵌入来为实体和关系建立语义空间。固定Schema关系的嵌入对于开放域关系来说是相同的:关于两类关系的推断是大概的,KG美满是可以或许改进的。
OpenIE(开放信息抽取)是一种过滤器和标准化实体之间的原始文本以获得开放域关系的工具。
基于深度学习的通用Schema:嵌入实体之间的文本, 实现泛化到新的开放领域关系的问题。
NLPIR大数据语义智能分析平台(原ICTCLAS)

在线测试地点:https://online.lingjoin.com/#/
此处使用中国民航局官方发布的《型号及格审定程序》AP-21-AA-2022-11文件中的笔墨来举行测试平台的各项功能,如图所示:
https://i-blog.csdnimg.cn/direct/362956f7195e4728be303541e53b97cd.png
https://i-blog.csdnimg.cn/direct/ed4fe73008d146cbab893fc5904ebf58.png
https://i-blog.csdnimg.cn/direct/4ebc32bf03ae4b7eb9e972c4a43277ad.png
https://i-blog.csdnimg.cn/direct/e0c15808607a4fd9a9f254aca9e3dd4a.png
https://i-blog.csdnimg.cn/direct/e75dfd3220744112ae7a63c8be4b27b3.png
当地摆设NLPIR

直接下载后打开NLPIR-parser.exe,将txt放在演示语料件夹下即可执行。
下载地点:https://github.com/NLPIR-team/NLPIR/
新词发现+关键词提取

**新词发现**:新词发现能从文本中挖掘出具有内涵新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化;**关键词提取**能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
https://i-blog.csdnimg.cn/direct/e922bf51617c4a7189cdce443fbdd459.png
https://i-blog.csdnimg.cn/direct/1ee11c5e54ed4f879891537c61d8db17.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 面向非结构化文本的信息抽取与NLPIR大数据语义智能分析平台