ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要 [打印本页]

作者: 篮之新喜    时间: 2024-10-27 22:07
标题: 【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要
1、配景

该书是阿里巴巴数据技能及产品部开山之作,该部门在阿里团体中定位为数据中台角色。多年来,该部门已经构建了从底层的数据收罗、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。

2、目录布局

全书分为4个篇幅,共计16个章节。从数据技能讲到数据模型,从数据管理讲到数据应用,阅读起来,循规蹈矩。
数据技能篇(第2-7章节)共计6个章节
数据模型篇(第8-11章节)共计4个章节
数据管理篇(第12-15章节)共计4个章节
数据应用篇(第16章节)共计1个章节
  1. 数据是一个平台企业最直接的沉淀,也是最基本的生产资料。
复制代码
3、数据加工链路

分层理念:操作数据层、明细数据层、汇总数据层、应用数据层。
通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,而且对整个过程举行有效的元数据管理及数据质量处理。

4、章节摘要

4.1 第2章 日记收罗

4.1.1 日记收罗方案


4.1.2 收罗指标


4.2 第3章 数据同步

4.2.1 数据的特点


4.2.2 数据同步的三种方式


4.2.3 数据同步的最佳实践


4.3 第4章 离线数据开辟

4.3.1 工具

同一计算平台MaxCompute
同类的竞品尚有Hadoop、Spark
4.4 第5章 及时技能

4.4.1 概念


4.4.2 流式数据处理


4.5 第6章 数据服务


4.6 第7章 数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

分类具体算法分类算法LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher鉴别、马氏距离鉴别、标签流传分裂等回归算法LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等聚类算法K-Means、Canopy、PSC谱聚类、标签流传聚类、EM聚类等保举算法etrec协同过滤(阿里商品协同过滤算法)、SVD协同过滤、ALS协同过滤等深度学习Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等其他PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等 4.6.2 数据挖掘流程

数据挖掘流程包括贸易理解、数据准备、特性工程、模型训练、模型测试、模型摆设、线上应用及效果反馈这8个环节。
     4.6.3 挖掘数据中台体系

4.6.3.1 数据中台

4.6.3.1.1 演进路线

数据中台演进的4个阶段。

4.6.3.1.2 分层

数据中台分为三层。特性层、中间层、应用层。

4.6.3.2 算法中台

4.7 第8章 大数据领域建模综述

4.7.1 数据仓库建模方法

4.8 第9章 阿里巴巴数据整合及管理体系

4.8.1 阿里团体大数据建设方法论

从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
4.8.2 维度模型建设

4.8.2.1 维度模型层次

维度模型层次关系图如下图所示。

4.8.2.1 维度模型规范定义


4.8.3 模型实施

4.8.3.1 Kimball模型实施

4.8.4 OneData及时工作流

图来源于阿里巴巴OneData大数据建设方法论(英华)博客。

4.9 第10章 维度设计

  1. 维度是维度建模的基础和灵魂。
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4