阿里云dataworks入门操纵

打印 上一主题 下一主题

主题 969|帖子 969|积分 2907

什么是DataWorks
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据堆栈、数据湖、湖仓一体等办理方案提供同一的全链路大数据开发管理平台。从2009年起,DataWorks不停沉淀阿里巴巴大数据建立方法论,支持数据中台建立,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不停提升数据应用服从,助力产业数字化升级。
产品架构
DataWorks十多年沉淀数百项核心能力,通过智能数据建模、全域数据集成、高效数据生产、主动数据管理、全面数据安全、数据分析服务六大全链路数据管理的能力,资助企业管理内部不停上涨的“数据悬河”,开释企业的数据生产力。

dataworks发展过程


dataworks中的基本概念
基本概念

更新时间:
本文为您先容DataWorks中,数据集成、数据建模、数据开发、数据分析、数据服务等模块开发过程中涉及的相关基本概念。
通用概念

工作空间

工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元。工作空间管理员可以为工作空间加入成员,并赋予工作空间管理员、开发、运维、部署、安全管理员或访客角色,以实现多角色协同工作。
阐明
发起您根据部门或业务板块来分别工作空间。
资源组

DataWorks资源组属于DataWorks的底子服务,为DataWorks上的各个功能模块提供计算资源,DataWorks资源组是您正常利用DataWorks的前提。资源组的状态将影响到相关功能的稳定运行,资源组的配额将影响任务或服务运行的服从。
阐明
DataWorks资源组与阿里云账号下的资源组不同,阿里云账号下的资源组是进行资源分组管理的一种机制,资助您办理单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行利用的资源组为两个概念,请注意区分。


  • DataWorks产品中利用的资源组,若无特指旧版资源组,均指Serverless资源组,其用途为通用型
  • Serverless资源组,可应用于数据集成数据调度以及数据服务。
简单模式与尺度模式

为方便不同安全管控要求的用户生产数据,DataWorks为您提供简单模式和尺度模式两种工作空间模式。尺度模式下,一个DataWorks工作空间对应两个数据源,可以将开发和生产环境的数据源隔离。
计算资源

计算资源是计算引擎用于实行数据处置惩罚和分析任务的资源实例,如MaxCompute项目(Quota组)、Hologres实例等。
一个工作空间支持添加多种数据源实例。其中,在数据开发中绑定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce和CDH/CDP数据源后,即可在工作空间开发和调度计算资源的相关任务。
数据集成



  • 数据源

    DataWorks数据源用于连接不同的数据存储服务。在配置数据集成同步任务之前,您需要首先定义好同步任务的源端和目的端数据源信息,以便在配置同步任务时,能够通过选择数据源名称来确定数据的读取和写入数据库。一个工作空间支持添加多种数据源实例。
  • 数据同步

    数据集成数据同步支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等)的数据同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)。数据同步支持多种同步方式,如离线同步、实时同步、单表/整库全增量同步等,除此之外,还支持Serverless同步任务(Serverless同步任务无资源组概念,只需关注同步任务本身)。
数据建模



  • 数据建模

    随着业务的快速发展,企业数据呈多少倍增长,数据量庞大、复杂、各类数据间尺度不一致,往往会出现数据难以管理的现象。DataWorks数据建模服务,将无序、紊乱、繁琐、庞大且难以管理的数据,进行结构化、有序的管理。使企业中的数据产生更多的代价,将数据代价最大化。
  • 逆向建模

    逆向建模是将物理表逆向天生逻辑模型,该功能资助您无需再次实行建模操纵即可快速创建模型,节省了大量的时间成本。
  • 建模空间

    当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时,面临跨多个工作空间的复杂数据体系,可以通过计划空间来共享一套数据建模工具,针对整个数据体系进行同一的数仓规划、维度建模及指标定义等工作。
  • 维度表

    结合业务的数据域的规划,提取出各业务数据域中进行数据分析时大概存在的维度,并将维度及其属性通过维度表的方式存储下来。例如,在进行电商业务数据分析时,可用的维度及其属性有:订单维度(属性包罗订单ID、订单创建时间、买家ID、卖家ID等)、用户维度(性别、出生日期等)、商品维度(包罗商品ID、商品名称、商品上架时间)等,此时您就可以将这些维度和属性创建为订单维度表、用户维度表、商品维度表等,将维度属性记录作为维度表的字段。
  • 明细表

    结合业务过程的规划,梳理分析各业务过程中大概产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。例如,在下订单这一业务过程中,您可以创建下订单这一明细表,用于记录下单过程大概产生实际数据字段,例如订单ID、订单创建时间、商品ID、数量、金额等。后续您可将这些明细表部署到数仓中,通过ETL将真实的数据按照明细表的定义方式进行汇总存储,便于业务分析时取用。
  • 汇总表

    汇总表用于组织一个数据域下相同时间周期、相同维度的多个派生指标的统计数据,是对业务高度抽象后的梳理效果,为后续的业务查询,OLAP分析,数据分发等提供底子。
  • 应用表

    应用表是面向详细业务场景,用于组织相同时间周期、相同维度的多个原子指标、派生指标或统计粒度的统计数据,为后续的业务查询,OLAP分析,数据分发等提供底子。
  • 数据集市

    数据集市是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数据应用层,依赖于公共层的整合数据。
  • 数仓规划

    利用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面临数据分层、业务分类、数据域、业务过程、数据集市、主题域进行计划。完成计划后,模型计划师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、业务过程等对所建模型进行分层化域管理。

    • 贴源层:用于数据库、日记、消息等底子源数据的引入。源数据颠末一系列ETL操纵进入贴源层,该层级只能挂载贴源表。
    • 公共层:用于加工、整合贴源层输入的公共数据,建立同一的指标维度,构建可复用面向分析和统计的明细毕竟数据和汇总数据。该层级可挂载明细表、维度表、汇总表。
    • 应用层:基于实际应用需求,获取公共层加工整合后的数据,面向详细应用场景或指定产品进行的个性化数据统计。该层级可以挂载应用表、维度表。

  • 数仓分层

    DataWorks的数仓分层功能,默以为您创建了数据引入层ODS(Operational Data Store)公共维度层DIM(Dimension)明细数据层DWD(Data Warehouse Detail)汇总数据层DWS(Data Warehouse Summary)应用数据层ADS(Application Data Service)等五层,各个分层的功能先容如下:

    • 数据引入层 ODS(Operational Data Store)
      ODS层用于接收并处置惩罚需要存储至数据堆栈系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据堆栈的数据准备区。
    • 明细数据层 DWD(Data Warehouse Detail)
      DWD层通过企业的业务运动事件构建数据模型。基于详细业务事件的特点,构建最细粒度的明细数据表。您可以结合企业的数据利用特点,将明细数据表的某些重要维度属性字段适当冗余,即宽表化处置惩罚。同时,也可以减少明细数据表及维度表的关联,进步明细表的易用性。
    • 汇总数据层 DWS(Data Warehouse Summary)
      DWS层通太过析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇总指标毕竟表。
    • 应用数据层 ADS(Application Data Service)
      ADS层用于存放数据产品个性化的统计指标数据,输出各种报表。
    • 公共维度层 DIM(Dimension)
      DIM层利用维度构建数据模型。可基于实际业务,存放逻辑模型的维度表;或存放概念模型的维度定义,通过定义维度,确定维度主键,添加维度属性,关联不同维度等操纵,构建整个企业的一致性数据分析维表,资助您降低数据计算口径和算法不同一的风险。

  • 主题域

    主题域用于将数据集市按照分析视角进行分别,通常是接洽较为紧密的数据主题的聚集。您可以根据业务的关注点,将这些数据主题分别至不同的主题域。例如,电商行业通常分为交易域、会员域、商品域等。
  • 数据域

    数据域是接洽较为紧密的数据主题的聚集,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域分别,将同范例数据存放在一起,便于您快速查找需要的内容。不同利用目的数据,分类尺度不同。例如,电商行业通常分为交易域、会员域、商品域等。
  • 业务过程

    业务过程是企业在指定的数据域中所实行的业务运动,是数据建模所需要分析的逻辑主体。例如,交易域中可以有加入购物车、下单、支付等业务过程。
  • 复合指标

    由于派生指标只是针对某业务运动某段时间的数据量统计,无法满足贴近用户实际利用的业务增长率、差值计算等数据的比对需求(例如,统计某业务运动的周环比增长率)。因此,DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合指标,资助您更加机动且细粒度地定义业务指标。
  • 数据指标

    DataWorks的数据建模提供数据指标功能,为您提供同一的指标体系建立能力。
    指标体系由原子指标修饰词时间周期派生指标构成。

    • 原子指标:是基于某一业务过程下的度量,如“支付订单”业务过程中的“支付金额”。
    • 修饰词:是对指标统计业务范围的限定,如限定“支付金额”的统计范围为“母婴类产品”。
    • 时间周期:用于明确指标统计的时间范围或者时间点,如指定统计“支付金额”的时间周期为“最近7天”。
    • 派生指标:由原子指标、修饰词、时间周期组合定义。如,统计“最近7天”“母婴类产品”的“支付金额”。

  • 尺度代码

    尺度代码是字段尺度的取值范围,在尺度代码中可设置某一字段尺度可选择的数据的内容以及范围。例如性别字段尺度的尺度代码内容应该为男或女。
  • 字段尺度

    字段尺度是对含义相同但字段名称不同的数据进行同一规范管理的数据准则,字段尺度可定义字段的取值范围、度量单位等内容。当字段尺度发生变化时可快速定位或变更对应的表,极大地提升了应用服从和正确率。
数据开发



  • 节点

    DataWorks的数据开发模块为您提供多种范例的节点,包罗用于数据同步的数据集成节点,用于数据洗濯的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处置惩罚的通用节点(例如,可统筹管理多个节点的假造节点、可循环实行代码的do-while节点),多种节点共同利用,满足您不同的数据处置惩罚需求。
  • 业务流程

    针对业务实体,抽象出业务流程的概念,资助您从业务视角组织代码的开发,进步任务管理服从。
    阐明 业务流程可以被多个办理方案复用。
    业务流程资助您从业务视角组织代码:

    • 支持基于任务范例的代码组织方式。
    • 支持多级子目次(发起不超过四级)。
    • 支持从业务视角查看团体的业务流程,并进行优化。
    • 支持根据业务流程组织发布和运维。
    • 提供业务流程看板,资助您更高效地进行开发。

  • Notebook

    DataWorks Notebook是一种交互式开发环境,允许用户通过整合代码(如SQL和Python等)、文本、代码实行效果和数据可视化图表来进行直观的数据探索、分析和AI模型开发。
  • SQL 组件

    仅适用于MaxCompute,您可以将SQL中的通用逻辑抽象为组件,进步代码的复用性。
    SQL代码的处置惩罚过程通常是引入一到多个源数据表,通过过滤、连接和聚合等操纵,加工出新的业务需要的目的表。组件是带有多个输入参数和输出参数的SQL代码过程模板。
  • 依赖关系

    任务间通过依赖关系定义任务的运行顺序。如果节点A运行后,节点B才华运行,我们称A是B的上游依赖,或者B依赖A。在DAG中,依赖关系用节点间的箭头表示。
  • 业务日期

    通常指的是与业务运动直接相关的日期,这个日期反映了业务数据的实际发生时间。这个概念在离线计算场景中尤为重要,例如在零售业务中,您需要统计20241010日的营业额,往往会在20241011日凌晨再开始计算,这时所计算出来的数据实际是20241010日的营业额,这个20241010,就是业务日期。
  • 输出名称

    输出名称:每个任务(Task)输出点的名称。它是您在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的假造实体。
    当您在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是节点名称或节点ID)来完成设置。设置完成后该任务的输出名也同时作为其下游节点的输入名称。
运维中心



  • 定时时间

    用户为周期任务设置预期实行的时间点,可精确到分钟级别。
    重要 影响任务运行的因素较多,并不意味着定时时间到了,任务就会立刻实行。在任务实行前,DataWorks会检测上游任务是否运行成功、定时时间是否已达到、调度资源是否充足,当上述条件均已满足后,才开始正式触发任务的运行。
  • 业务日期

    通常指的是与业务运动直接相关的日期,这个日期反映了业务数据的实际发生时间。这个概念在离线计算场景中尤为重要,例如在零售业务中,您需要统计20241010日的营业额,往往会在20241011日凌晨再开始计算,这时所计算出来的数据实际是20241010日的营业额,这个20241010,就是业务日期。
  • 周期任务

    指根据用户设定的调度周期,由调度系统自动触发实行的任务。在运维中心的周期任务列表中,您可以对任务进行一系列的运维和管理操纵,如查看任务的DAG图、测试运行、补数据以及修改任务责任人等。
  • 周期实例

    指根据周期任务的调度配置,自动天生用于实行的任务实例。例如某个任务设置为每小时调度一次,则平台一天会天生24个任务实例,每小时会自动触发一个任务实例的运行,只有实例才有运行状态等信息。在运维中心的周期实例列表中,您可以对实例进行一系列的运维操纵,如终止运行、置成功、重跑等。
  • 补数据

    根据您指定的任务和选定的时间段,自动天生补数据任务实例。补数据功能主要应用于历史数据回刷和数据修正。通过补数据功能,您可以针对恣意已往或未来的时间段重新计算数据,以保障数据的完备性和正确性。
  • 基线

    根据您设置的基线优先级、答应完成时间、预警余量等配置,自动监控基线上的全部任务,对全部影响任务按时产出的风险进行预警。基线优先级的数字越大,优先级越高,DataWorks会对高优先级基线上的任务进行资源倾斜,保障任务的产出时间。基线的预警余量主要是预留处置惩罚非常的时间,DataWorks会用答应完成时间减去预警余量,计算出预警时间,如果任务无法在预警时间内产出,平台会实时发出预警,将风险告知给相关业务方。
数据管理中心



  • 健康分

    健康分是衡量数据资产健康状态的一个综合指标,范围从0到100,数值越大则代表数据资产的健康度越高。它基于数据管理项,接纳预定义的模型进行量化评估,反映当前租户、工作空间或个人的数据管理成效。健康分体系可细分为存储、计算、研发、质量和安全等五个健康度领域维度,每个维度均有相应的健康分指标,资助用户简化明确成本,直观了解资产状态。
  • 管理项

    管理项指在数据管理过程中辨认资产需要优化或办理的问题点,覆盖研发规范、数据质量、安全合规、资源利用率等方面的问题。管理项分为强管理项和可选管理项,前者默认开启且不可更改,后者则根据实际需求选择启用。例如,任务运行时间超长一连堕落节点无人访问叶子节点等均为管理项。
  • 检查项

    检查项是作用于数据生产流程的主动式管理机制,可在数据任务提交、发布等关键环节进行前置检查,判定代码或数据是否存在潜在问题,如是否存在全表扫描、调度依赖配置是否缺失等。当检测到不符合要求内容时,会天生检查项事件,系统自动进行拦截处置,从而约束和管理开发流程,确保数据处置惩罚的尺度化和规范化。
  • 数据管理计划

    数据管理计划围绕不同管理场景提供管理计划模板,以周期时间内的管理目的为导向,快速选择强相关的管理项和检查项,圈定可优化对象,资助负责人一连跟踪数据管理成效,通过量化评估,推动团队实时达成管理目的。
  • 知识库

    知识库包罗数据管理中心内置的检查项及管理项定义,可资助数据管理人员快速辨认和了解管理过程中遇到的详细问题,并提供办理问题的参考信息和实践指导,提升人员管理服从。
安全中心



  • 数据权限

    安全中心为您提供精细化的数据权限申请、权限审批、权限审计等功能,实现了权限最小化管控,同时,方便您查看权限审批流程各环节的希望,实时跟进处置惩罚流程,详情请参见数据访问控制。
  • 数据内容安全

    安全中心提供的数据分级分类、敏感数据辨认、敏感数据访问审计、数据源可追溯等功能,在处置惩罚业务流程的过程中,能够快速实时辨认存在安全隐患的数据,保障了数据内容的安全可靠,详情请参见数据掩护伞概述。
数据质量



  • 质量监控

    质量监控指一连跟踪和检测数据对象(如分区表的详细分区)的状态和变化的过程,确保其符合预设的质量要求,发现并办理大概影响数据质量的问题。在DataWorks中,可以通过设置通过调度事件触发的质量监控,来自动实行质量校验,并将质量效果告警给相关负责人。
  • 质量规则

    质量规则是评估数据质量是否符合预期要求的详细条件或逻辑判定尺度。例如,“客户年龄不能小于0岁”、“订单金额必须大于等于0元”等都属于质量规则。在DataWorks里,您可以根据业务需求机动配置不同的质量规则,并将其应用于相应的数据范围进行验证。当发现不符合规则预期的数据时,系统会自动辨认并进行质量告警。
  • 规则模板

    规则模板是预定义好校验逻辑的质量规则样例,您可以直接利用或者根据需要进行校验阈值修改,然后创建符合本身需求的质量规则。DataWorks提供了多种范例的规则模板供选择,同时也支持通过自定义SQL创建新的模板:

    • 系统模板规则:可通过DataWorks提供的内置规则模板创建规则。
    • 自定义模板规则:若系统内置规则模板无法满足您对分区表达式中数据质量的监控需求,则可利用自定义规则模板。您也可以将常用的自定义规则固化为规则模板,便于后续快速复用。

数据掩护伞



  • 数据分类分级

    用于对您当前的数据按照数据代价、内容敏感程度、影响和分发范围进行敏感级别分别。不同敏感级别的数据管控原则和数据开发要求存在差异。
  • 敏感数据辨认规则

    根据数据的来源、用途,定义数据分类并配置敏感字段范例,辨认当前工作空间中的敏感数据。DataWorks提供了内置数据分类及辨认规则,您也可根据需要自定义数据分类及敏感数据辨认规则。
  • 数据脱敏规则

    用于对辨认到的敏感数据配置脱敏规则。根据业务管控要求,不同敏感级别的数据脱敏管控存在差异。
  • 风险辨认规则

    根据智能化的分析技能,通过风险辨认规则,主动发现风险操纵并预警。资助您进行更加全面的风险管理,有用辨认并规避风险。
数据地图



  • 元数据

    元数据是数据的描述数据,可以为数听阐明其属性(名称、大小、数据范例等),或结构(字段、范例、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。
  • 血缘

    数据血缘是用于描述数据在处置惩罚、流转和融合过程中形成的关联关系。它通常展示数据是如何被创建、加工、同步直至终极消耗的整个过程,以及在这个过程中涉及到的全部数据对象。在DataWorks平台上,通过可视化的方式展示数据之间的血缘关系链路,资助用户快速定位问题所在,并评估更改某张表或字段大概带来的影响范围。这对于维护复杂的数据处置惩罚流程尤其重要。
  • 数据专辑

    按照业务视角,进行数据表的类目组织和管理。您可以将指定表等加入目的专辑中进行收纳,实现快速、便捷地检索和定位。
数据分析



  • SQL查询

    SQL查询是利用尺度的SQL语句,来查询和分析各类数据源中的数据,详情请参见SQL查询。
  • 电子表格

    电子表格是面向数据表格进行在线编辑和管理的工具,支持将SQL查询效果或本地文件中的数据导入至目的电子表格进行进一步查阅、分析和可视化,也支持将电子表格中的数据进行导出、下载和分享,机动满足日常数据分析需求。详情请参见创建并管理电子表格。
  • 数据洞察

    数据洞察是指通过深度数据分析息争读来获取深刻的数据明确和发现,它支持数据探索和可视化。您可以通过数据洞察了解数据分布,创建数据卡片,并组合成数据报告。此外,数据洞察效果能够通过长图形式的报告进一步分享。该功能利用AI技能辅助数据分析,资助您剖析复杂数据,并为业务决策提供支持。
数据服务



  • API

    API全称为Application Programming Interface。在DataWorks数据服务中,开发者能够基于各类数据源快捷封装数据API,在业务应用、软件、系统、报表等场景中调用数据API,实现数据获取与消耗。
  • 函数

    函数是数据API的过滤器。当函数作为API的前置过滤器时,能够对请求参数进行处置惩罚,例如:请求参数改值、请求参数赋值等。当函数作为API的后置过滤器时,能够对返回效果进行二次加工,例如:更改返回效果的数据结构、增长返回效果内容等。
  • 数据推送

    DataWorks提供了数据推送服务,该服务可以创建推送任务,在任务内编写单表或多表查询的SQL代码来圈定数据范围,并添加富文本或表格等内容来组织推送消息的内容。可以通过配置调度周期和时间,定时将数据推送至目的Webhook中。
开放平台



  • 开放API(OpenAPI)

    DataWorks开放平台提供OpenAPI能力,通过调用DataWorks的OpenAPI利用DataWorks的各项功能,实现应用和DataWorks的集成和交互。
  • 开放事件(OpenEvent)

    DataWorks的OpenEvent旨在将DataWorks的各类状态变更情况以事件消息的方式触达到用户,便于用户订阅消息并做出个性化的相应。例如,您可以通过OpenEvent订阅表变更事件,从而实现核心表的实时监控;通过OpenEvent订阅任务变更事件,实现定制化的任务监控。
  • 扩展程序(Extensions)

    DataWorks扩展程序是一种插件,结合OpenAPI及OpenEvent,您可以通过扩展程序对DataWorks中的用户操纵举动进行自定义逻辑处置惩罚并实现拦截阻断等举动管控。例如,您可以开发一个任务变更管控扩展程序,实现自定义任务发布流程管控。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

水军大提督

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表