知识图谱:连接实体与关系的语义网络

打印 上一主题 下一主题

主题 1531|帖子 1531|积分 4593

知识图谱作为人工智能领域的核心技术之一,是一种通过三元组(实体×关系×属性)形式,布局化表达实体间关系的语义网络。这种网络不但嵌入了丰富的语义和逻辑,还遵照一定的规则,使其成为人类进行推理、预测和分类的有力工具。
与传统的图像不同,知识图谱中的“图”指的是类似化学分子式的布局,由多种实体和它们之间的关系构成的复杂网络。知识图谱具备以下四个基本特性:

  • 布局化知识表示:将非线性、分散的知识信息以布局化形式呈现,便于明白和操作。
  • 语义丰富:每个实体和关系都具有特定的语义和逻辑寄义。
  • 网络化知识布局:通过复杂的实体和关系网络,实现对知识的深度挖掘和应用。
  • 数据承载方式:重要通过知识库承载,通常以文本数据为主,辅以布局化的数据形式。
知识图谱的构建和应用为决策支持智能分析等领域奠定了结实的底子。

核心任务概览


  • 知识图谱构建与补全

    • 构建:从数据收集、整合到构造的过程,创建全面的知识表示框架。
    • 补全:通过填补缺失信息,增强图谱的完整性和丰富度。

  • 实体同一(消歧)

    • 消歧:合并指代同一实体的不同表述,确保图谱中的一致性。

  • 实体分类

    • 分类:将实体归入相应种别或类型,优化数据构造和明白。

  • 知识检索问答(简朴推理)

    • 检索问答:从知识图谱中提取信息,进行基本推理,回答查询题目。

  • 复杂关系推理

    • 复杂推理:逾越简朴查询的多步调推理,涉及多个实体和关系的分析。

这些任务是知识图谱技术应用的核心,涵盖从底子构建到高级推理的各个方面,是实现知识管理和智能应用的关键步调。

技术架构原理


  • 数据获取

    • 半布局化数据:为实体及其属性构建提供底子。
    • 布局化数据:为数值属性整合和分析奠定底子。

  • 知识获取

    • 命名实体识别:主动从文本中识别实体(如人名、地名、机构名)。
    • 关系抽取:从语料库中提取实体间的关系,构建关系网络。
    • 属性信息采集:从多样信息源中获取实体的特定属性。

  • 知识融合

    • 指示代词合并:确保文本连贯性。
    • 消歧:消除同一实体的歧义,确保一致性。
    • 实体匹配:将识别的实体与知识库中的目标实体对应。

  • 知识加工

    • 知识概念模块构建:抽取本体信息,形成知识布局。
    • 推理与可信度评估:对知识图谱进行推理,并评估其可信度。
    • 知识存储:将通过评估的图谱存入知识库,不通过的返回调整。

  • 知识存储与盘算

    • 存储:实现快速查询与运用,支持底层数据形貌与上层盘算。


知识图谱的产品形态与应用

起源与聚焦



  • 网络搜索引擎:最初计划服务于互联网用户的通用搜索引擎。
  • 内部搜索引擎:逐渐发展为满足特定领域或企业内部的搜索需求。
知识范围与目标

广域网中的通用知识



  • 目标:创建通用知识图谱,提拔搜索精度,实现智能化推荐。
  • 特性:高度通用,实用于日常应用场景,依赖高效的网络爬虫技术。
局域网中的专业知识



  • 目标:构建特定领域或企业级知识库,以精准搜索为核心。
  • 特性:专业性强,针对性高,淘汰通用性。
应用示例



  • 百科词条搜索:提供关键词相关内容推荐和问答服务。
  • 企业内部业务检索:助力企业进行专业知识的检索和问答。
知识图谱可视化



  • 升级:引入大数据知识图谱,直观展示复杂的知识与关系网络。
知识图谱行业办理方案

数据治理与抽取



  • 目标:通过数据治理,提取关键知识点和关系,支持构造应用和业务分析。
行业知识图谱



  • 知识资源形成:融合特定领域数据与专业知识,构建丰富的知识资源。
  • 特性与应用:专注行业知识的应用,依赖精准的领域专家数据标注。

知识图谱的财产链与应用领域

财产链特点



  • 上游:数据源与底子层,包罗布局化、半布局化、非布局化数据,及盘算存储本领。
  • 中游:知识图谱构建与技术服务,包罗知识抽取、表示、建模与平台配置。
  • 下游:应用模型与服务,包罗金融、政务、公安、医疗等领域的前端业务支持。

应用层与支撑技术



  • 应用层:包罗互联网通用知识图谱和行业定制办理方案。
  • 支撑技术:包罗知识图谱构建、存储、推理等核心技术。
应用领域


  • 金融:信贷风控、精准营销、业务流程优化。
  • 政务与公安:公安研判、司法辅助审查、政务服务。
  • 医疗:医疗辅助、医学科研、用户服务。
  • 工业与电力:产品研发、安全质量控制、供应链管理。

实际案例分析

数禾的风控图谱应用

业务配景与挑战
知识图谱在金融风控领域的应用引发了广泛关注。虽然传统方法成本高、效率低,但通过利用图神经网络模型(GNN),可以在反欺诈场景中深度挖掘关系网络,从而提拔风险管理的效果。

当前,已有的关联数据构成了庞大的关系图谱,但数据量的增长带来了分析成本的提拔,限制了人工分析的深入性。
数据与模型
数据准备:筛选80多个风控反欺诈场景中最有用的特性作为节点特性,利用图布局特性,通过在丧失函数中添加权重,办理数据不均衡题目。
模型架构


  • GraphSage结合GAT:通过GraphSage进行多层邻人采样,构建子图;在子图上应用GAT进行邻人节点聚合,最终输出风险评估效果。

效果
在多个测试会集,GNN模型展现出良好的风险区分度,融合传统模型后,AUC显著提拔。

微信支付的图盘算实践

样本增强

违约贷款用户的数目通常较少,导致学习样本不敷,影响模型的准确性。通过构建用户间的复杂网络,图盘算技术可以或许揭示用户之间的潜在关联,并找出与违约用户特性相似的群体,从而扩展学习样本的数目。这种增强策略不但提拔了模型的训练效率,也显著提高了预测效果。
传播染色

在图盘算实践中,传播染色是一种关键技术,重要用于评估风险在网络中的扩散情况。通过分析用户之间的关联关系,可以识别出潜在的恶意举动并确定其传播路径。


  • 染色流程

    • 目标用户识别:首先识别大概受到风险影响的用户群体。
    • 恶意等级盘算:使用传播染色技术,评估每个节点(用户或实体)的恶意等级。
    • 染色效果:被染色的节点代表其已被识别为潜在的风险传播载体。

  • 个性化PageRank:采用个性化PageRank算法对节点的重要性进行评估,进一步增强染色过程的准确性。
基于时序的异常挖掘

在金融交易监控中,及时发现异常交易举动对于风险管理至关重要。基于时序的异常挖掘技术可以或许帮助快速识别异常交易运动,从而有用防备金融风险。


  • HP滤波器:通过Hodrick-Prescott滤波器分析交易数据,识别出异常交易点。这一方法广泛用于经济时间序列分析中,专注于提取数据的周期性身分。
  • TLSTM:结合时序卷积网络(Temporal Convolutional Network, TCN)和长短期记忆网络(Long Short-Term Memory, LSTM)的优势,提拔时序数据处置惩罚本领。
  • EgoTLSTM算法:将交易时序信息与边信息结合,通过EgoTLSTM算法增强对异常交易举动的识别本领。
团伙快速挖掘

在金融领域,识别资金转移背后的团伙运动对于防范金融风险至关重要。通过分析交易模式和举动特性,可以有用识别参与不法运动的二级账户,并利用关系网络逐层关联账号,追踪资金的扩散路径。


  • 可信度判断:基于阈值和专家经验来评估关系的可信度。
  • 连通分量算法(Connected Component):快速挖掘团伙布局,分析其内部关系。
  • TPNe算法:通过TPNe算法深入分析团伙内角色及层级布局,提高识别精度。

融慧金科

团伙欺诈识别

在金融欺诈防备中,识别团伙运动的迹象至关重要。通过分析借贷申请日期的断层及地理位置的异常,可以揭示潜在的欺诈举动。


  • 判断依据

    • 申请日期断层:分析借贷申请日期,发现时间上的异常断层,提示大概的欺诈举动。
    • 地理位置节点:识别出四个与借贷申请相关的不同地理位置节点。
    • 业务解读:结合业务知识,对异常模式进行深入解读。例如,通过分析地理位置和WiFi信息,可以揭示某线下中介团伙的异常操作。


建信金科

在企业信贷风险评估中,建信金科采用了一种结合企业底子信息和图谱分析的综合方法,提拔风险分类的准确性。




  • 企业信息收集:包罗工商注册信息、财务报表、名誉记录等。
  • 企业图谱构建:基于企业间的关联关系,揭示企业网络布局。
  • 一度邻人分析:特别关注与目标企业直接相连的企业,分析此中具有欺诈标签的企业,并盘算其占比作为图谱嵌入特性,用于评估目标企业的潜在风险。

蚂蚁团体


底子数据建设


  • 海量异构数据存储:实现大规模异构数据的恒久时序存储。
  • 业务数据标准化:创建业务数据的标准化流程,确保一致性。
  • 跨业务知识复用:在不同业务之间合规复用知识,提高数据利用效率。
实体间关系预测


  • 用户与商户识别:在同一实体间识别用户与商户的关系。
  • 企业与实控人(UBO)识别:确保企业与实际控制人的关系透明并可解释。
  • 上下游关系分析:分析企业间的上下游关系,确保供应链管理的完整性。
团伙挖掘


  • 专家经验形式化:将专家经验转化为可操作的形貌性语言(DSL)。
  • 基于专家经验的团伙识别:主动化挖掘团伙识别规则,利用社区发现技术识别潜在团伙布局。
信贷风险管理


  • 贷前风险评估:预测潜在风险,确保信贷决策的公道性。
  • 贷中风险监控:实时评估交易风险,监控资金流向。
  • 贷后管理:通过对资金流向的监控与风险跟踪,确保贷后资金安全。

58信息安全


反欺诈技术方案
反欺诈技术方案分为高级建模、特性提取和关系构图三个重要模块。

  • 高级建模:采用社区发现、标签传播、Node2Vec + XGBoost等技术,并使用图卷积网络(GCN)提高模型的预测性能。
  • 特性提取:从设备、内容、举动、名誉四个维度提取关键特性,如手机号、信息内容特性、登录举动等。
  • 关系构图:通过设备聚集性、内容相似性和举动同步性构建用户关系图,识别潜在的欺诈举动。
通过综合分析这些特性,反欺诈体系可以或许有用识别并防范各种复杂的欺诈举动。
模型性能对比

在反欺诈应用中,GraphSaint模型在准确率、召回率和F1分数方面体现最佳,且训练时间较短,显示出其在实际应用中的优势。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

慢吞云雾缓吐愁

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表