① 数据安全:数据安全就会涉及到数据资产的分类、分级。不同类别的资产,他的安全等级是不一样的,他在安全里面需要有权限的话,他的审批策略是不一样的,这是数据安全这一块,可能还涉及一些比如脱敏,我们消费端接触到这些数据怎么脱敏; ② 隐私保护:隐私保护更偏重,比如说隐私保护还有一个叫法是数据安全、数据合规,我们想要做什么事情,就是我们要去透明化的看到各个公司数据流通,比如有哪些数据,这些数据的安全等级是什么样的,涉及到用户哪些数据; ③ 数据质量:主要是在我们数据研发过程当中,数据周期从发布到线上调度,调度完了怎么去做数据质量的监测,检测完了以后,比如说我们做离线调度的时候最重要的一个就是数据产出时效,所以有一个基线。这都是怎么去保障我们任务的基线; ④ 元数据中心:元数据中心大家都知道,因为我们下面有各种各样不同的引擎,有Spark,有ODPS,有MySQL这些东西,怎么去把它当中的数据统一的元数据中心; ⑤ 数据治理:数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。
数据引擎
① 任务执行与调度引擎:我们在做ETL的时候大多数都是这种任务执行与调度; ② 数据科学引擎:数据科学引擎主要是做分析,做业务洞察这一类,今天的数据业务平台可能更多的就是依赖于数据科学引擎,后面会详细介绍; ③ 决策服务引擎:决策引擎比如说给大家举一个场景,芝麻分大家都知道,那首先假如我有一个业务在线上,在线上做策略的时候,或者给大家看不同的页面的时候,不同的芝麻分的等级看到的页面或者等级是不一样的,这种东西是需要数据决策的,或者直白的来说,是需要这个人的芝麻分,这个通过统计数据服务会去配一个决策规则,相当于这里的决策引擎里面支持一种决策的DSL配置,简单来讲就是if……else……,if…else……,能够配置这样一套规则后,给在线业务场景提供服务,这是决策服务引擎。整个数据内核就这么多东西。
2. 数据操作系统的桌面
在这之上我们建了面向用户的数据工作台主要包括: ① 外部数据采集平台:因为我们有很多数,比如口碑,口碑的交易量的涨跌有一个很关键的因素,天气,所以我需要外部天气数据,所以这是外部数据采集平台; ② 资产管理平台:和这里面元数据中心是对等的,我们需要把我们体系内所有的数据规范化管理起来,在我们的研发流程里面他就必须到这个数据资产管理平台里面去把他这一次要建的表规范化下来; ③ 数据研发平台:数据研发平台就要支持多引擎、批流合一,我们写一个统一的SQL,它可以切换到批ODPS调动,也可以切换到实时,切换到比如我们体系内的Kepler,切换到Spark Streaming上去做调度,这是数据研发平台要做的事情。他就可能依赖于任务执行调度引擎; ④ 数据分析平台:它主要做一些多维分析和自助的多维分析,还做一些智能的业务洞察; ⑤ 数据决策平台:为在线业务提供数据能力。然后就是数据实验平台,实验概念就是A/B实验,我今天切一个算法,可以在这上面切1%的流量到这个算法,另外1%的流量到这个老算法对比。对比他们的效果、显著度。做一些置信区间的分析,来看看这个算法的效果,因为这里面实验涉及到的概念就是,同样这一个算法切1%,如果一个效果是98%,一个是95%,如果没经过科学检验的话,没办法说明98%的三个点到底是样本误差导致的,还是说就是我这个算法,所以说实验平台解决这个问题。
在这之上有一些垂直场景的服务,比如说蚂蚁的数据产品对外透出的一些端的能力,能够在移动端去看我们的数据。
第二块有一些垂直的解决方案,比如说人群画像平台、位置服务。
第三块是开发者中心,主要是应对一个场景叫开放。
这就是从数据操作系统内核到数据系统桌面,再到数据业务场景。数据平台部业务大概的范畴是这样的。
--
02 数据分析领域简介