【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要 ...

打印 上一主题 下一主题

主题 869|帖子 869|积分 2617

1、配景

该书是阿里巴巴数据技能及产品部开山之作,该部门在阿里团体中定位为数据中台角色。多年来,该部门已经构建了从底层的数据收罗、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。

2、目录布局

全书分为4个篇幅,共计16个章节。从数据技能讲到数据模型,从数据管理讲到数据应用,阅读起来,循规蹈矩。
数据技能篇(第2-7章节)共计6个章节
数据模型篇(第8-11章节)共计4个章节
数据管理篇(第12-15章节)共计4个章节
数据应用篇(第16章节)共计1个章节
  1. 数据是一个平台企业最直接的沉淀,也是最基本的生产资料。
复制代码
3、数据加工链路

分层理念:操作数据层、明细数据层、汇总数据层、应用数据层。

  • 操作数据层 (Operational Data Store, ODS)
    这是数据的原始状态,直接来源于业务系统,如销售记录、客户信息等。这一层的数据通常是及时或近及时更新的,重要用于快速查询和简单的数据分析。
  • 明细数据层 (Data Warehouse Detail, DWD)
    这一层的数据已颠末了肯定程度的清洗和转换,保存了全部细节,适合于详细的分析和报告。它作为数据仓库的底子,提供了对历史数据的深入洞察。
  • 汇总数据层 (Data Warehouse Summary, DWS)
    在这个层次,数据已经被进一步聚合,形成了各种维度的汇总视图。这一层的数据量相对较小,便于快速查询和分析,常用于业务监控和趋势分析。
  • 应用数据层 (Application Data Service, ADS)
    描述:这是数据处理的最上层,数据颠末建模和封装,形成易于消费的服务或产品,可以直接被应用程序或用户界面利用。这一层的数据通常是为了特定的应用场景而定制的。
通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,而且对整个过程举行有效的元数据管理及数据质量处理。

4、章节摘要

4.1 第2章 日记收罗

4.1.1 日记收罗方案



  • Web端 Aplus.js
  • APP端 UserTrack
4.1.2 收罗指标



  • 页面浏览量 PV
  • 访客数 UV
4.2 第3章 数据同步

4.2.1 数据的特点



  • 数据来源的多样性
  • 数据量大
4.2.2 数据同步的三种方式



  • 直连同步:适合操作型业务系统,批量执行拉低系统性能
  • 数据文件同步:利用FTP传输文件,对文件举行校验
  • 数据库日记剖析:实现了及时和准及时同步本领,耽误可以大概控制在毫秒级别
4.2.3 数据同步的最佳实践



  • 批量同步:DataX

  • 及时同步:
    MySQL数据库中的数据及时同步接纳剖析binlog日记文件的方式,通过TimeTunnel平台举行消息的分发。
4.3 第4章 离线数据开辟

4.3.1 工具

同一计算平台MaxCompute
同类的竞品尚有Hadoop、Spark
4.4 第5章 及时技能

4.4.1 概念



  • 离线:在今天(T)处理N天前(T-N,N≥1)的数据,耽误时间粒度为天
  • 准及时:在当前小时(H)处理N天前(H-N,N>0,如0.5小时、1小时)的数据,耽误时间粒度为小时
  • 及时:在当前时刻处理当前数据,耽误时间粒度为秒
4.4.2 流式数据处理



  • 时效性高
  • 常驻任务
  • 性能要求高
  • 应用局限性
4.5 第6章 数据服务



  • SmartDQ
  • Lego
4.6 第7章 数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

分类具体算法分类算法LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher鉴别、马氏距离鉴别、标签流传分裂等回归算法LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等聚类算法K-Means、Canopy、PSC谱聚类、标签流传聚类、EM聚类等保举算法etrec协同过滤(阿里商品协同过滤算法)、SVD协同过滤、ALS协同过滤等深度学习Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等其他PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等 4.6.2 数据挖掘流程

数据挖掘流程包括贸易理解、数据准备、特性工程、模型训练、模型测试、模型摆设、线上应用及效果反馈这8个环节。
     4.6.3 挖掘数据中台体系

4.6.3.1 数据中台

4.6.3.1.1 演进路线

数据中台演进的4个阶段。

4.6.3.1.2 分层

数据中台分为三层。特性层、中间层、应用层。

4.6.3.2 算法中台


  • 个体挖掘应用
  • 关系挖掘应用
4.7 第8章 大数据领域建模综述

4.7.1 数据仓库建模方法


  • ER模型:高层建模、中层建模、物理建模
  • 维度模型:选择分析决策业务过程、选择粒度、识别维表、选择事实
  • Data Vault模型:ER模型的衍生,更容易设计和产出
  • Anchor模型:Data Vault模型的规范处理,只增加不修改,规范到6NF
4.8 第9章 阿里巴巴数据整合及管理体系

4.8.1 阿里团体大数据建设方法论

从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
4.8.2 维度模型建设

4.8.2.1 维度模型层次

维度模型层次关系图如下图所示。

4.8.2.1 维度模型规范定义


4.8.3 模型实施

4.8.3.1 Kimball模型实施


  • 高层模型
  • 详细模型
  • 模型审查、再设计和验证
  • 提交ETL设计和开辟
4.8.4 OneData及时工作流

图来源于阿里巴巴OneData大数据建设方法论(英华)博客。

4.9 第10章 维度设计

  1. 维度是维度建模的基础和灵魂。
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

篮之新喜

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表