IT评测·应用市场-qidao123.com技术社区

标题: 华为数据之道-读书条记 [打印本页]

作者: 玛卡巴卡的卡巴卡玛 时间: 2025-1-26 01:40
标题: 华为数据之道-读书条记
内容简介

关键字

数字化生产

已经成为普遍的商业模式，其本质是以数据为处置惩罚对象，以ICT平台为生产工具，以软件为载体，以服务为目标的生产过程。
信息与通信技术平台（Information and Communication Technology Platform,ICT）

数据孤岛

IT系统中的数据语言不统一，差别I系统之间的数据不贯通，同样的数据须要在差别TT系统中重复录入，乃至差别I系统中的同一个数据不同等等。这些标题限制了运营效率的提拔和效益的改进，华为迫切须要数字化转型来改变这种状态。
数字化转型（怎么做）

ToB / ToC

数据入湖

数据入湖 是指将数据从各种数据源（如数据库、文件系统、及时流数据等）导入到 数据湖 中的过程。数据湖是一个存储系统，能够以原始格式生存海量结构化、半结构化和非结构化数据，为后续的数据分析、呆板学习和数据驱动决议提供支持。

数据消耗

数据消耗 是指在数据生态系统中，用户或系统通过对数据的访问、分析和处置惩罚，从而获取有代价的信息，用于支持决议、优化业务流程或推动创新。它是数据生命周期的重要阶段，通常紧接在数据存储（如数据湖或数据堆栈）之后。
数据消耗的核心寄义

数据消耗的本质是将存储在数据平台中的原始数据转化为对业务故意义的洞察和代价。
数据消耗的形式可以多种多样，比如生成报表、构建呆板学习模型、驱动及时决议等。

数据消耗的常见形式

报表与可视化：
- 数据被消耗为可视化的报表和图表，用于业务监控和决议支持。
- 工具：Power BI、Tableau、FineBI 等。
- 例子：通过贩卖数据生成月度贩卖报表。
业务分析与洞察：
- 利用统计学或分析工具，对数据举行深度发掘。
- 工具：Excel、Python（Pandas、Matplotlib）、R 等。
- 例子：分析用户行为数据，发现客户流失的缘故原由。
及时数据处置惩罚：
- 消耗及时流数据，支持快速相应和及时决议。
- 工具：Kafka、Spark Streaming、Flink 等。
- 例子：及时监控物流运输状态。
数据驱动的自动化：
- 数据直接被系统或服务消耗，用于触发自动化流程。
- 例子：银行的风控系统根据用户交易数据自动判断风险。
呆板学习与AI模型：
- 数据作为模型训练的输入，驱动呆板学习或人工智能应用。
- 工具：TensorFlow、PyTorch、Scikit-learn 等。
- 例子：根据汗青数据训练模型预测未来贩卖趋势。
API 数据消耗：
- 数据通过 API 提供给应用程序消耗。
- 例子：电商平台通过 API 查询库存数据并更新页面。

数据消耗的技术架构

数据消耗通常依赖于以下技术架构：

数据湖与数据堆栈：
- 数据消耗的基础是数据存储。数据湖存储原始数据，数据堆栈存储加工后的结构化数据。
- 工具：Hadoop、Amazon S3、Snowflake 等。
数据集成与查询：
- 数据通过 ETL 或 ELT 流程集成，并通过查询工具消耗。
- 工具：Presto、Hive、BigQuery 等。
数据可视化平台：
- 将复杂数据出现为易于明白的图表或仪表板。
- 工具：Tableau、Power BI、Grafana 等。
及时流处置惩罚：
- 及时数据的消耗须要强大的流处置惩罚能力。
- 工具：Kafka、Flink、Spark Streaming 等。

数据消耗的挑衅

数据质量：
- 如果数据不正确、不完备或不及时，会直接影响消耗结果的可靠性。
访问性能：
- 当数据量过大时，如何高效查询和处置惩罚数据是一个难题。
安全与隐私：
- 数据消耗涉及敏感数据时，如何确保合规性和安全性。
数据孤岛：
- 数据分散在多个系统中，导致消耗过程中难以整合。

数据底座

数据底座 是一个支持企业数字化转型的核心技术平台，用来统一管理、存储和处置惩罚企业所有的数据资源。它是企业实现数据驱动决议、智能化应用的基础设施，类似于建筑物的地基，支撑着上层的各种数据应用。
数据底座的重要组成部分

数据存储：
- 数据底座须要存储结构化、半结构化和非结构化数据，通常包括以下系统：
  - 数据湖：存储原始的、海量的多种数据范例。
  - 数据堆栈：存储颠末处置惩罚和结构化的数据，用于高效分析。
  - 云存储：机动支持弹性存储（如 AWS S3、阿里云 OSS）。
数据集成：
- 将企业的多种数据源（如数据库、日记系统、及时流数据）统一整合到数据底座。
- 工具：ETL（提取、转换、加载）工具（如 Apache NiFi、Informatica）。
数据治理：
- 确保数据的质量、规范性和安全性。
- 包括数据洗濯、数据尺度化、元数据管理、数据权限控制。
数据分析与服务：
- 支持多种数据分析需求，包括统计分析、呆板学习、及时处置惩罚等。
- 提供数据 API 和服务，支持上层应用调用数据。
数据安全：
- 实现数据加密、访问控制、日记记录，确保数据合规性和安全性。
开发与运维支持：
- 为数据科学家、分析师和开发者提供统一的平台工具（如 Jupyter Notebook、BI 工具）。

ETL（提取、转换、加载）

ETL 是指 提取（Extract）、转换（Transform）、加载（Load），是一种将数据从一个或多个泉源提取出来，颠末转换处置惩罚后加载到目标系统（如数据堆栈、数据湖）的数据集成过程。ETL 是数据处置惩罚的重要环节，广泛用于数据堆栈建立、数据分析和业务报表生成。

ETL 的三个重要步骤

提取（Extract）：
- 从多个数据源中获取原始数据，包括结构化数据（如数据库表）、半结构化数据（如 JSON、XML）和非结构化数据（如文本、日记）。
- 数据源示例：
  - 数据库（MySQL、Oracle、PostgreSQL）
  - 文件系统（CSV、Excel）
  - API 或及时流（如 Kafka）
- 目标是尽可能完备地提取数据，同时避免影响源系统性能。
转换（Transform）：
- 对提取的原始数据举行洗濯、规范化和处置惩罚，以满足目标系统的要求。通常包括以下操纵：
  - 数据洗濯：处置惩罚空值、重复值、异常值。
  - 格式转换：统一日期格式、单位等。
  - 数据聚合：盘算总数、均匀值等。
  - 维度处置惩罚：将数据映射到维度表或毕竟表。
  - 业务规则应用：根据业务逻辑衍生新字段或分类数据。
加载（Load）：
- 将转换后的数据加载到目标系统中，如数据堆栈（如 Snowflake、Redshift）或数据湖（如 Hadoop、S3）。
- 加载方式：
  - 全量加载：每次将所有数据重新加载到目标系统。
  - 增量加载：只加载新增或更新的数据。
- 确保数据加载的完备性和正确性。

IoT数据

IoT数据（Internet of Things 数据）是指由物联网装备生成、收集和传输的数据。这些装备通过网络互联，可以及时感知、监测和传输信息，从而为数据分析和智能化应用提供支持。
IoT 数据的泉源

IoT 数据重要泉源于各种毗连到互联网的装备和传感器，这些装备可以分为以下几类：

工业装备：
- 工厂中的呆板、呆板人、装备传感器。
- 例如：温度、压力、振动传感器。
智能家居装备：
- 智能音箱、智能门锁、智能灯泡、智能电表。
- 例如：记录室内温湿度、用电量、用户行为等。
可穿戴装备：
- 智能手表、健身追踪器。
- 例如：记录心率、步数、就寝数据。
交通工具：
- 车辆中的 GPS、车载诊断系统（OBD）。
- 例如：车辆位置、速率、燃油使用情况。
情况监测装备：
- 景象站、空气质量监测仪。
- 例如：二氧化碳浓度、噪声程度、降雨量。
物流与零售：
- 包括物流追踪器、智能货架、RFID 标签。
- 例如：商品库存、运输位置、存储条件。

IoT 数据的特点

及时性：
- IoT 数据通常以流数据的形式及时产生，适合用于及时监控和快速相应。
- 例如：传感器每秒传输一次温度数据。
多样性：
- IoT 数据可以是结构化、半结构化或非结构化的，包含数值、文本、图片、视频等。
- 例如：结构化的电量数据，非结构化的装备日记。
海量性：
- 由于装备数量庞大，数据生成频率高，IoT 数据通常出现出“数据爆炸”的特点。
- 例如：一台传感器每天产生上 GB 的数据。
分布式泉源：
- 数据来自分布在差别所在的装备，具有高度分散性。
- 例如：差别城市的情况监测装备生成的数据。
时序性：
- 数据通常是以时间序列形式产生，带有时间戳，用于分析变化趋势。
- 例如：每天记录温度变化曲线。

IoT 数据的存储与处置惩罚

由于 IoT 数据量大、种类多且及时性强，对数据存储和处置惩罚系统的要求较高。
存储方式

云存储：
- 使用云平台（如 AWS、Azure、阿里云）存储数据，具有弹性扩展性。
- 例如：将 IoT 数据存储在 AWS IoT Core。
边沿盘算：
- 在装备附近（边沿）处置惩罚和存储部分数据，降低传输耽误。
- 例如：工业装备及时分析振动数据，异常时才上传到云。
数据湖与数据堆栈：
- 数据湖（如 Hadoop、AWS S3）：存储原始数据。
- 数据堆栈（如 Snowflake、Redshift）：存储结构化数据用于分析。

处置惩罚方式

及时数据处置惩罚：
- 使用流处置惩罚框架（如 Apache Kafka、Flink）分析及时数据。
- 例如：监控车辆速率，超速时发出警报。
批量数据分析：
- 将 IoT 数据定期导入数据堆栈，使用大数据工具（如 Spark）举行批处置惩罚。
- 例如：分析一周内装备的运行状态。
呆板学习与AI：
- 使用 AI 模型对 IoT 数据举行预测和异常检测。
- 例如：预测工业装备的故障。

Mapping

Mapping 在开发中通常指的是数据或信息之间的映射关系，即将一种数据结构、字段或实体转换成另一种对应的数据结构或字段，以便在差别系统或模块之间举行数据的通报或处置惩罚。Mapping 是软件开发中常见的概念，广泛应用于数据传输、转换、模型映射等场景。
Mapping的常见场景

Mapping 的作用

数据转换：
- 将数据从一种格式或结构转换为另一种，以满足差别模块或系统的需求。
系统集成：
- 在多个系统之间共享数据时，通过映射来解决字段或数据结构不同等的标题。
降低耦合性：
- 使用映射层可以隔离差别系统或模块的实现细节，降低代码的耦合性。
提拔代码可维护性：
- 通过统一的映射规则或工具，简化数据转换的逻辑，方便后续维护。

常见的 Mapping 技术与工具

编程语言中的工具：
- Java：ModelMapper、MapStruct。
- Python：pydantic、Marshmallow。
- JavaScript：手动映射（如使用 map() 方法）。
数据库工具：
- Hibernate、JPA（ORM 工具）。
- 数据库视图用于映射复杂字段。
ETL 工具：
- Apache Nifi、Talend、Informatica，用于跨系统的大规模数据映射和转换。
配置文件与规则：
- JSON、YAML 配置文件中定义的映射规则。
- 自定义映射规则文件。

逻辑实体

物理表

虚拟表

视图

数据模型

数据模型 是一种对现实世界数据及其相互关系的抽象表达，用来形貌数据的结构、操纵和约束。它是数据库设计、数据处置惩罚和数据管理的基础工具，帮助我们明白和组织复杂的数据。

Data Lab

Data Lab 是指企业数据管理和分析中的一个核心功能模块或场景，通常代表了一个会合的数据实行室（Data Laboratory）或分析平台。它的重要目标是为用户提供机动的探索、分析和试验数据的情况，帮助实现业务洞察和智能决议。

数据治理

对企业的数据管理和利用举行评估、引导和监视，通过提供不绝创新的数据服务，为企业创造代价
数据源

指业务上初次正式发布某项数据的应用系统，并颠末数据管理专业组织认证，作为企业范围内唯一数据源头被周边系统调用。
数据Owner

公司数据 Owner 是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据
争议的裁决者，拥有公司数据一样平常管理的最高决议权。
数据 Owner 的职责包括：
① 负责数据管理体系建立。
② 负责信息架构建立。
③ 负责数据质量管理。
④ 负责数据底座和数据服务建立。
⑤ 负责数据争议裁决。
数据Owner要负责所辖领域的信息架构建立和维护，负责保障所辖领域的数据质量，承接公司各个部分对本领域数据的需求，并有责任建立数据标题回溯和赏罚机制，对所辖领域的数据标题及争议举行裁决，公司有权对不服从信息架构或存在严峻数据质量标题标责任人举行问责。
主数据

参与业务事故的主体或资源，是具有高业务代价的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性，都是在业务事故发生之前预先定义；但又与基础数据差别，主数据的取值不受限于预先定义的数据范围，而且主数据的记录的增长和减少一样平常不会影响流程和IT系统的变化
元数据

定义数据的数据，是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息
元数据是形貌数据的数据，用于突破业务和IT之间的语言障碍，帮助业务更好地明白数据。
元数据通常分为业务、技术和操纵三类。
此中：
业务元数据：用户访问数据时相识业务寄义的途径，包括资产目次、Owner、数据密级
等。
技术元数据：实施职员开发系统时使用的数据，包括物理模型的表与字段、ETL 规则、
集成关系等。
操纵元数据：数据处置惩罚日记及运营情况数据，包括调度频度、访问记录等。
数据导航/数据地图DMAP

汇聚/钻取/切片

数据粒度

SLA

第一部分

第一章

数字化转型目标

数字化转型蓝图

数据工作框架

数据体系建立的整体框架

第二章

数据治理体系框架

数据管理总纲

第三章

数据分类管理框架

数据分类

基础数据治理

基础数据是用于分类或目次整编的数据，通常有一个有限的允许、可选值范围。也就是常见的基础码值。如性别、币种、业务单范例等。
基础数据治理无论对优化业务流程还是数据分析都有较高的代价。一方面是增强与外部系统、提高业务灵敏度；另一方面，减少mapping的开发，支持业务端到端分析，增长业务确定性。码值管理最好通过系统来管控，现在的工作里也遇到这类标题，因为老系统之前较为杂乱，新建系统建了一套全新的，但其时相关尺度管理系统不美满，且在新老mapping上并不美满，导致数据部分很难开展工作。

基础数据治理的代价

基础数据治理的收益

基础数据治理的框架

主数据治理

主数据具有高业务代价的、可以在企业内跨流程跨系统被重复使用的数据，具有唯一、正确、权势巨子的数据源。通常是业务事故的参与方，参与方在业务中是一个很重要的概念。常见的主数据有机构主数据、员工主数据、产品主数据、财务主数据等。
华为的主数据范围包含客户、产品、供应商、组织和职员。每个主数据都有相应的架构、流程及管控组织来负责管理。现在的工作里也各自新建域来管理相应的主数据，但缺少良好的流程和管控，产品功能存在但现实转起来时没有那么顺畅，须要不绝打磨。最后的目标是保证数出一孔，提高数据质量、支持交易流打通等。

主数据管理战略

主数据管理框架

客户主数据

客户数据是企业最重要的主数据之一，险些贯穿所有业务谋划运动。客户数据在全流程中的及时性、正确性、完备性、同等性、有效性、唯一性是业务高效运作、谋划可控的重要保障。随着业务发展，华为客户数量敏捷增长，客户数据种类复杂多样，因此要构建客户数据管理和服务化能力，以满足谋划分析、交易打通、内外部服从、客户代价发掘等核心要求，支撑面向多BG的战略变化。
这里的“多BG”指的是“多业务群”（Business Groups）的意思。华为作为一个环球化的大型企业，通常会根据差别的产品线、市场需求、技术方向等，划分为多个业务群（BGs）。这些业务群可能包括消耗业务、企业业务、运营商业务等。每个BG都有其独立的目标、运作模式和管理需求。因此，“支撑面向多BG的战略变化”意味着要建立一个能够支持多个业务群战略需求的系统或平台，以确保客户数据能够在各个业务群之间高效流畅和利用。
事务数据治理

事务数据用于记录企业谋划过程中产生的业务事故，其实质是主数据之间运动产生的数据。如一条xx订单数据。

事务数据会调用主数据和基础数据，当然也有自身的数据。如一张订单上，一样平常有客户、产品、机构主数据，币种、订单范例等基础数据，也有订单金额、订单号等事务数据。因此，事务数据治理的重点是管理功德务数据对主数据和基础数据的调用，以及事务数据之间的关联关系，确保上卑鄙通报顺畅，数仓中间层建模时就是毕竟表表泉源。

报告数据治理

报告数据是对数据举行处置惩罚加工后，用作业务决议依据的数据。重要是指维度、指标。

观测数据治理

观测数据是观测者通过观测工具获取观测对象行为/过程的记录数据。如系统日记、物联网数据、GPS数据等。
观测对象重要是人、事、物和情况，观测对象要定义成业务对象举行管理。观测方式分为软感知（使用软件或各种技术举行数据收集，比如某log日记）和硬感知（收集对象为物理世界中物理实体，如IOT数据）。

规则数据治理

规则数据是结构化形貌业务规则变量（一样平常为决议表、关联关系表、评分卡等形式）的数据，是实现业务规则的核心数据。无法实例化，只能以逻辑实体存在。如某下单流程中的定价规则，风控规则等。业务规则/规则变量->规则数据，一个业务规则可以包含0-N个规则数据。

非结构化数据

外部数据

外部数据是指华为公司引入的外部组织大概个人拥有处置权利的数据，如供应商资质证明、消耗者洞察报告等。外部数据治理的出发点是合规服从优先，与内部数据治理的目标差别。

元数据

元数据是定义数据的数据，是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息。属于形貌性标签，形貌了数据、相关概念以及他们之间的关系，如业务术语、指标定义、表/字段形貌等。

元数据设计原则

数据资产编码

数据资产编码（DAN，Data Asset Numbering） 是一种对数据资产举行唯一标识的编码体系，用于帮助企业对其数据资产举行统一管理、标识和追踪。

Schema （skiːmə，s给m）是数据库的设计图，定义了数据的结构、范例和关系，为数据存储、管理和使用提供规范。

元数据注册

元数据注册 是指将元数据（Metadata）按照一定的规范和尺度，登记到一个元数据管理平台或元数据堆栈中，以便统一管理和使用。这个过程确保企业或组织中的数据资源可以被清楚地形貌、分类和追踪，从而实现对数据的全面明白、利用和管控。

元数据注册有4种模式，一对一模式（逻辑实体和物理表一对一）、主从模式（一对多，逻辑实体对应多张物理表）、主扩模式（一对多主物理表为核心表，少数属性存在其他物理表中）和父子模式（多个逻辑实体业务属性完全相同，按照差别场景区分逻辑实体，但落在同一物理表中）。

第二部分

第四章

企业级信息架构

信息架构原则

第五章

数据底座总体架构

数据湖

数据湖（入湖方法）

这里区分下物理入湖和虚拟入湖：
（1）物理入湖是指将原始数据复制到数据湖中，重要有批量集成、数据复制同步（及时，CDC）、消息集成（及时，API提取数据，MQ工具）和流集成（及时，Pipline工具）。
（2）虚拟入湖是指原始数据不在数据湖中举行物理存储，而是通过建立虚拟表的集成方式实现入湖，及时性强，一样平常面向小数据量应用，数据量过大可能影响源系统。重要是面向须要低数据低时延、高机动性和临时模式（不绝消耗下的模式）的消耗场景。如Denodo中的逻辑数据架构，支持数据虚拟化。

批量集成

数据复制同步

消息集成

流集成

数据虚拟化

结构化数据入湖

结构化数据是指由二维表结构来逻辑表达和实现的数据，严格依照数据格式与长度规范，重要通过关系型数据库举行存储和管理。
触发结构化数据入湖的场景有两种：
第一，企业数据管理组织基于业务需求自动规划和统筹；
第二，相应数据消耗方的需求。
结构化数据入湖过程包括：数据入湖需求分析及管理、查抄数据入湖条件和评估入湖尺度、实施数据入湖、注册元数据。