IT评测·应用市场-qidao123.com技术社区

标题: 华为数据之道-读书条记 [打印本页]

作者: 玛卡巴卡的卡巴卡玛    时间: 2025-1-26 01:40
标题: 华为数据之道-读书条记
内容简介




关键字

数字化生产

已经成为普遍的商业模式,其本质是以数据为处置惩罚对象,以ICT平台为生产工具,以软件为载体,以服务为目标的生产过程。
信息与通信技术平台(Information and Communication Technology Platform,ICT)



数据孤岛

IT系统中的数据语言不统一,差别I系统之间的数据不贯通,同样的数据须要在差别TT系统中重复录入,乃至差别I系统中的同一个数据不同等等。这些标题限制了运营效率的提拔和效益的改进,华为迫切须要数字化转型来改变这种状态。
数字化转型(怎么做)


ToB / ToC




数据入湖

数据入湖 是指将数据从各种数据源(如数据库、文件系统、及时流数据等)导入到 数据湖 中的过程。数据湖是一个存储系统,能够以原始格式生存海量结构化、半结构化和非结构化数据,为后续的数据分析、呆板学习和数据驱动决议提供支持。



数据消耗

数据消耗 是指在数据生态系统中,用户或系统通过对数据的访问、分析和处置惩罚,从而获取有代价的信息,用于支持决议、优化业务流程或推动创新。它是数据生命周期的重要阶段,通常紧接在数据存储(如数据湖或数据堆栈)之后。
数据消耗的核心寄义


数据消耗的常见形式

数据消耗的技术架构

数据消耗通常依赖于以下技术架构:
数据消耗的挑衅

数据底座

数据底座 是一个支持企业数字化转型的核心技术平台,用来统一管理、存储和处置惩罚企业所有的数据资源。它是企业实现数据驱动决议、智能化应用的基础设施,类似于建筑物的地基,支撑着上层的各种数据应用。
数据底座的重要组成部分

ETL(提取、转换、加载)

ETL 是指 提取(Extract)、转换(Transform)、加载(Load),是一种将数据从一个或多个泉源提取出来,颠末转换处置惩罚后加载到目标系统(如数据堆栈、数据湖)的数据集成过程。ETL 是数据处置惩罚的重要环节,广泛用于数据堆栈建立、数据分析和业务报表生成。

ETL 的三个重要步骤

IoT数据

IoT数据(Internet of Things 数据)是指由物联网装备生成、收集和传输的数据。这些装备通过网络互联,可以及时感知、监测和传输信息,从而为数据分析和智能化应用提供支持。
IoT 数据的泉源

IoT 数据重要泉源于各种毗连到互联网的装备和传感器,这些装备可以分为以下几类:
IoT 数据的特点

IoT 数据的存储与处置惩罚

由于 IoT 数据量大、种类多且及时性强,对数据存储和处置惩罚系统的要求较高。
存储方式
处置惩罚方式
Mapping

Mapping 在开发中通常指的是数据或信息之间的映射关系,即将一种数据结构、字段或实体转换成另一种对应的数据结构或字段,以便在差别系统或模块之间举行数据的通报或处置惩罚。Mapping 是软件开发中常见的概念,广泛应用于数据传输、转换、模型映射等场景。
Mapping的常见场景





Mapping 的作用

常见的 Mapping 技术与工具

逻辑实体


物理表


虚拟表


视图


数据模型

数据模型 是一种对现实世界数据及其相互关系的抽象表达,用来形貌数据的结构、操纵和约束。它是数据库设计、数据处置惩罚和数据管理的基础工具,帮助我们明白和组织复杂的数据。



Data Lab

Data Lab 是指企业数据管理和分析中的一个核心功能模块或场景,通常代表了一个会合的数据实行室(Data Laboratory)或分析平台。它的重要目标是为用户提供机动的探索、分析和试验数据的情况,帮助实现业务洞察和智能决议。

数据治理

对企业的数据管理和利用举行评估、引导和监视,通过提供不绝创新的数据服务,为企业创造代价
数据源

指业务上初次正式发布某项数据的应用系统,并颠末数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用。
数据Owner

公司数据 Owner 是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据
争议的裁决者,拥有公司数据一样平常管理的最高决议权。
数据 Owner 的职责包括:
① 负责数据管理体系建立。
② 负责信息架构建立。
③ 负责数据质量管理。
④ 负责数据底座和数据服务建立。
⑤ 负责数据争议裁决。
数据Owner要负责所辖领域的信息架构建立和维护,负责保障所辖领域的数据质量,承接公司各个部分对本领域数据的需求,并有责任建立数据标题回溯和赏罚机制,对所辖领域的数据标题及争议举行裁决,公司有权对不服从信息架构或存在严峻数据质量标题标责任人举行问责。
主数据

参与业务事故的主体或资源,是具有高业务代价的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性, 都是在业务事故发生之前预先定义;但又与基础数据差别,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增长和减少一样平常不会影响流程和IT系统的变化
元数据

定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息
元数据是形貌数据的数据,用于突破业务和IT之间的语言障碍,帮助业务更好地明白数据。
元数据通常分为业务、技术和操纵三类。
此中:
业务元数据:用户访问数据时相识业务寄义的途径,包括资产目次、Owner、数据密级
等。
技术元数据:实施职员开发系统时使用的数据,包括物理模型的表与字段、ETL 规则、
集成关系等。
操纵元数据:数据处置惩罚日记及运营情况数据,包括调度频度、访问记录等。
数据导航/数据地图DMAP



汇聚/钻取/切片




数据粒度


SLA


第一部分


第一章


数字化转型目标


数字化转型蓝图


数据工作框架


数据体系建立的整体框架


第二章


数据治理体系框架


数据管理总纲



第三章



数据分类管理框架


数据分类


基础数据治理

    基础数据是用于分类或目次整编的数据,通常有一个有限的允许、可选值范围。也就是常见的基础码值。如性别、币种、业务单范例等。
      基础数据治理无论对优化业务流程还是数据分析都有较高的代价。一方面是增强与外部系统、提高业务灵敏度;另一方面,减少mapping的开发,支持业务端到端分析,增长业务确定性。码值管理最好通过系统来管控,现在的工作里也遇到这类标题,因为老系统之前较为杂乱,新建系统建了一套全新的,但其时相关尺度管理系统不美满,且在新老mapping上并不美满,导致数据部分很难开展工作。         

基础数据治理的代价


基础数据治理的收益


基础数据治理的框架


主数据治理

        主数据具有高业务代价的、可以在企业内跨流程跨系统被重复使用的数据,具有唯一、正确、权势巨子的数据源。通常是业务事故的参与方,参与方在业务中是一个很重要的概念。常见的主数据有机构主数据、员工主数据、产品主数据、财务主数据等。
     华为的主数据范围包含客户、产品、供应商、组织和职员。每个主数据都有相应的架构、流程及管控组织来负责管理。现在的工作里也各自新建域来管理相应的主数据,但缺少良好的流程和管控,产品功能存在但现实转起来时没有那么顺畅,须要不绝打磨。最后的目标是保证数出一孔,提高数据质量、支持交易流打通等。


主数据管理战略


主数据管理框架


客户主数据

客户数据是企业最重要的主数据之一,险些贯穿所有业务谋划运动。客户数据在全流程中的及时性、正确性、完备性、同等性、有效性、唯一性是业务高效运作、谋划可控的重要保障。随着业务发展,华为客户数量敏捷增长,客户数据种类复杂多样,因此要构建客户数据管理和服务化能力,以满足谋划分析、交易打通、内外部服从、客户代价发掘等核心要求,支撑面向多BG的战略变化。
这里的“多BG”指的是“多业务群”(Business Groups)的意思。华为作为一个环球化的大型企业,通常会根据差别的产品线、市场需求、技术方向等,划分为多个业务群(BGs)。这些业务群可能包括消耗业务、企业业务、运营商业务等。每个BG都有其独立的目标、运作模式和管理需求。因此,“支撑面向多BG的战略变化”意味着要建立一个能够支持多个业务群战略需求的系统或平台,以确保客户数据能够在各个业务群之间高效流畅和利用。
事务数据治理

事务数据用于记录企业谋划过程中产生的业务事故,其实质是主数据之间运动产生的数据。如一条xx订单数据。

    事务数据会调用主数据和基础数据,当然也有自身的数据。如一张订单上,一样平常有客户、产品、机构主数据,币种、订单范例等基础数据,也有订单金额、订单号等事务数据。因此,事务数据治理的重点是管理功德务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上卑鄙通报顺畅,数仓中间层建模时就是毕竟表表泉源。

报告数据治理

 报告数据是对数据举行处置惩罚加工后,用作业务决议依据的数据。重要是指维度、指标。

观测数据治理

观测数据是观测者通过观测工具获取观测对象行为/过程的记录数据。如系统日记、物联网数据、GPS数据等。
 观测对象重要是人、事、物和情况,观测对象要定义成业务对象举行管理。观测方式分为软感知(使用软件或各种技术举行数据收集,比如某log日记)和硬感知(收集对象为物理世界中物理实体,如IOT数据)。

规则数据治理

规则数据是结构化形貌业务规则变量(一样平常为决议表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据。无法实例化,只能以逻辑实体存在。如某下单流程中的定价规则,风控规则等。业务规则/规则变量->规则数据,一个业务规则可以包含0-N个规则数据。




非结构化数据


外部数据

外部数据是指华为公司引入的外部组织大概个人拥有处置权利的数据,如供应商资质证明、消耗者洞察报告等。外部数据治理的出发点是合规服从优先,与内部数据治理的目标差别。

元数据

元数据是定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息。属于形貌性标签,形貌了数据、相关概念以及他们之间的关系,如业务术语、指标定义、表/字段形貌等。



元数据设计原则





数据资产编码

数据资产编码(DAN,Data Asset Numbering) 是一种对数据资产举行唯一标识的编码体系,用于帮助企业对其数据资产举行统一管理、标识和追踪。


Schema (skiːmə,s给m)是数据库的设计图,定义了数据的结构、范例和关系,为数据存储、管理和使用提供规范。

元数据注册

元数据注册 是指将元数据(Metadata)按照一定的规范和尺度,登记到一个元数据管理平台元数据堆栈中,以便统一管理和使用。这个过程确保企业或组织中的数据资源可以被清楚地形貌、分类和追踪,从而实现对数据的全面明白、利用和管控。

元数据注册有4种模式,一对一模式(逻辑实体和物理表一对一)、主从模式(一对多,逻辑实体对应多张物理表)、主扩模式(一对多主物理表为核心表,少数属性存在其他物理表中)和父子模式(多个逻辑实体业务属性完全相同,按照差别场景区分逻辑实体,但落在同一物理表中)。


第二部分


第四章


企业级信息架构



信息架构原则


第五章



数据底座总体架构


数据湖

数据湖(入湖方法)





  这里区分下物理入湖和虚拟入湖:
        (1)物理入湖是指将原始数据复制到数据湖中,重要有批量集成、数据复制同步(及时,CDC)、消息集成(及时,API提取数据,MQ工具)和流集成(及时,Pipline工具)。
        (2)虚拟入湖是指原始数据不在数据湖中举行物理存储,而是通过建立虚拟表的集成方式实现入湖,及时性强,一样平常面向小数据量应用,数据量过大可能影响源系统。重要是面向须要低数据低时延、高机动性和临时模式(不绝消耗下的模式)的消耗场景。如Denodo中的逻辑数据架构,支持数据虚拟化。

批量集成

数据复制同步


消息集成

流集成


数据虚拟化



结构化数据入湖

结构化数据是指由二维表结构来逻辑表达和实现的数据,严格依照数据格式与长度规范,重要通过关系型数据库举行存储和管理。
触发结构化数据入湖的场景有两种:
第一,企业数据管理组织基于业务需求自动规划和统筹;
第二,相应数据消耗方的需求。
结构化数据入湖过程包括:数据入湖需求分析及管理、查抄数据入湖条件和评估入湖尺度、实施数据入湖、注册元数据。

非结构化数据入湖



数据主题联结



第六章


数据服务


数据地图



服务+自助


数字化运营过程


第三部分



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4