如何变“慢、缺、乱”为“快、全、准”?
我们认为,通过在数仓和 BI 之间引入一个全新的、独立的指标平台(或者叫做指标语义层),将指标的业务逻辑和物理口径举行解耦,可以实现这一目标。
但条件是这样的指标平台需要具有 NoETL、自动化的特点,即基于数仓公共层的明细数据和维度表举行自动化语义建模,并由体系自动化代持数仓应用层宽表和汇总表的开辟,实现“管、研、用”的一体化:首先从管理角度,可以实现指标口径的统一管理;其次从开辟的角度,避免重复开辟,提高指标交付的效率;末了从使用的角度,提供给业务侧快速、灵活、划一的指标消费体验。
Aloudata CAN 作为一款 NoETL 自动化指标平台,能够交付“快、全、准”的分析体验,其两大基础分别是“标准化的指标定义”和“自动化的指标开辟”。
首先,业务希望得到的是一个全面准确的数据体验。要做到指标数据的全面性,条件一定是基于数仓公共层的明细数据定义指标,这样可以获取全部分析维度,并能实现最细粒度的下钻;要做到指标的准确性,则需要将全部指标在统一的指标平台上沉淀和落地,将原来的数仓开辟的数据资产和面向业务消费的消费层资产举行隔离。这背后依靠于一个强盛的标准化指标定义能力。即全部的指标定义都不需要按照业务需求定制化编写 SQL 开辟,而是基于一个强盛的语义模子和丰富的函数能力,实现复杂指标的配置化定义。只要一次定义,下游的各个场景就可以消费。
其次,业务希望需求能够快速满足,唯一方法就是将人工开辟转变为自动化开辟。我们为了保证分析的全面性,要基于数仓公共层的明细数据定义和开辟指标,这需要指标平台的自动化开辟能力有着强盛的性能保障。Aloudata CAN 通过智能的物化加速计谋,保障指标的秒级查询响应。
接下来我们从“快、全、准”三个方面,具体介绍如何借助 Aloudata CAN 实现理想的数据分析体验。
3.1 快
“快”的需求,体现为“试错快”、“决议快”、“定位快”、“查询快”。
试错快:指标定义即消费,低成本试错验证
首先介绍下企业指标体系建立的四大原则。
最核心的原则是客观性,必须确保指标能够真实反映业务发展状态。如果指标不能准确反映当下的业务发展状态,就是失效的。
第二个原则是体系性。即指标体系的建立,一定要思量全局性、结构性和层次性,才能自上而下形成一套指标体系,将企业最大的战略级目标横向和纵向拆解成一线业务职员能够追踪和执行的细分指标。
第三个原则是指标体系需要有动态性。在企业的策划过程中,不大概一开始就建成一个大而全的美满的指标体系。随着业务规划的调整和计谋的迭代,指标体系也需要快速地举行动态调整。
第四个原则是指标一定要有敏感性,能够反映出业务的变化。好比,早期的业务规模比较小,如果用 DAU 去权衡,变化不快,大概要用 MAU 才能更有用地捕获到变化。
在上述四项原则中,我们要强调的是动态性原则。如果可以快速试错,就能够低成本地判定指标是否客观、敏感。Aloudata CAN 自动化平台的一大价值就是帮助企业建立指标体系的快速试错机制。 通过 Aloudata CAN,业务职员可以用配置化的方式快速完成指标的业务口径定义,并能立即获取指标的数值,因此可以快速验证这个指标是否符合预期,可否客观地反应业务环境,是否能够敏感地捕获到业务的变化。如果不能,我们可以对这个指标的口径举行快速调整,或者随时重新定义另一个指标来权衡。
相较于写 SQL 开辟的方式,Aloudata CAN 的配置化指标定义的体验让企业可以快速迭代指标,低落指标体系建立过程中的试错成本。而实现任意指标标准化、配置化定义的条件,是 Aloudata CAN 强盛的指标定义能力。
我们将指标的定义和盘算逻辑拆分为三个核心的原子要素。
第一个是指标的基础度量。最简单的方式是求和。其次是时间维度的多次聚合,好比求月日均交易金额的最大值。需要先求出月日均值,再求出月日均值的最大值。这种聚合是在时间维度上举行的。同时,我们还经常需要在非时间维度上举行多次聚合。例如,如果我们想查看某个地区的门店日均订单量,我们需要将这个地区全部门店的日均订单量举行汇总,这种是非时间维度的多次聚合。
第二个核心要素是业务限定。在企业中,经常会用指标来筛选数据。好比,想要查看上个月交易量大于零的用户,本月的交易金额环境。因此,指标结果作为筛选是非常紧张的。此外,还需要基于指标结果举行排名,进一步查看指标的表现。好比,当日持仓金额前三的债券,它的持仓规模占比到底是前三还是前五,需要举行试错。Aloudata CAN 可以便捷地实现指标标签化筛选数据举行分析。
末了,全部的指标都需要有一个统计周期。我们希望快速查看差别时间周期内指标的表现。因此,我们将时间周期抽象为常见的近多少日期初期末或者本年至今等统计周期的限定。对于一些上市公司来说,他们需要查看财年或某个运营动作,需要自定义周期去看指标的表现。还有一些特殊的行业,好比证券业,需要查看交易日,可以通过自定义日历查看指标的表现。Aloudata CAN 支持将这些复杂的指标通过配置化的方式快速定义,不需要在数仓里面写 SQL 层层开辟才能看到指标的值,就能看到指标的结果,实现指标的快速探查。
决议快:突破数据需求末了一公里,业务全流程自助分析
企业都希望业务可以快速获取数据,实现自助分析。但在真实业务场景中,“数仓 + BI” 的模式会导致数据分析的末了一公里仍依靠于 IT 职员或分析师举行数据准备。业务会提出他们想要的指标、维度和分析角度,传统开辟模式下,分析维度被固化。一旦需求变动,还需要找 IT 职员提需求。 有了指标平台,IT 只需要做好公共层的数据资产沉淀和原子指标的定义,业务职员就可以用原子指标加上任意维度,灵活地举行自主分析。因为给到他们的分析维度是全的,业务能够真正能够完成从数据准备到数据分析的末了一公里。
这样的业务全流程自助分析同时办理了 IT 和业务的痛点。传统模式下,IT 的排期开辟任务很多,也很担心业务经常修改需求,但通过 Aloudata CAN 实现了业务自主分析后,大大低落了 IT 的指标开辟和变动成本。对于业务来说,能够实现指标维度的灵活扩展,及时获取分析结果。实践证明,通过 Aloudata CAN,决议效率可以提升 10 倍以上。
定位快:指标智能归因分析,快速帮助业务深层次洞察波动原因
企业持续观测指标的目标是通过指标的波动变化发现题目或识别机遇。因此能够快速定位指标变化的原因是一项核心诉求。
为支持更加速速的数据分析,Aloudata CAN 提供了两种智能归因的分析方法。
第一个是从各个维度层层下钻分析。与 BI 工具中的指标归因差别,Aloudata CAN 下钻的归因维度是全面的。数仓公共层维度表中包罗的全部维度,都不需要通过 SQL 开辟举行打宽固化。因此,Aloudata CAN 保存了最全面的分析维度。在归因时,也能够下钻直到获取明细数据,定位到根本原因。 第二个是指标因子关系的归因分析。好比,企业将利润定为北极星指标。利润可以拆分为收入减去成本。收入大概便是 A 收入加 B 收入加 C 收入。通过指标的因子关系,我们可以找出指标间的相关性,判定对于利润影响最大的指标因子是收入还是成本。然后,我们可以联合指标维度下钻归因分析收入或成本变化的根本原因。
根据指标因子关系归因是一种广度定位的方法,帮助我们找到主要原因,然后再根据指标维度下钻定位到深度的原因。这两种方式相联合,可以帮助企业快速洞察指标波动的原因。
查询快:自动物化加速,实现十亿数据秒级查询响应
业务自主分析或打开报表时,默认需要秒级体验。
Aloudata CAN 的指标定义直接基于明细数据,如何保证全量数据的快速查询体验呢?我们自研了一个物化加速计谋引擎。它会基于用户的查询举动,提供物化加速的计谋发起。
Aloudata CAN 基于一整套物化视图构建、物化视图调理更新、物化视图命中改写的计谋,将原来需要人工在数仓举行的宽表和汇总表的开辟,变成体系自动化构建。当用户发起一次查询,相当于对某些指标和维度举行筛选和盘算,体系会自动判定是否命中物化表,进而自动举行路由的查询改写。通过这套机制,我们能做到 10 亿数据的秒级响应。
小结一下,通过上述试错快、迭代快、定位快和查询快四个方面,我们介绍了 Aloudata CAN 如何交付快速的分析体验。
那么第二大方面“全”又是如何体现的呢?
3.2 全
所谓全,实在本质就是给业务一个完整的明细表。
传统方式要通过人工打宽和汇总的方式实现对明细数据的查询和分析,业务拿到的是维度和粒度完全固化的结果表。一旦发现字段不全,想从更多视角举行分析,就还需要找 IT 排期开辟。
Aloudata CAN 实在是建立了模子的逻辑关联关系,而不是物理关联。有了这样的一个逻辑的关联关系之后,现实上是形成了一个虚拟的明细大宽表。
好比下图中例子里面是两个事实表和三个维度表。订单表和退款表都与客户、产品、类目标维度表建立了关联关系,因此有着同样的公共维度。只要是这两个事实表的公共维度,就可以去串联分析跨事实表的指标,而不需要在数仓里把它们写到一张表里。这样就给业务提供了一个虚拟的明细大宽表,可以对指标和维度实现灵活的组装和分析。
如今借助 Aloudata CAN 指标平台,可以通过指标标签化的能力实现人群的快速圈选,进而很方便地从差别维度下钻,看差别客群的留存率表现。
具体操作上,我们可以先定义一个基础指标“访问次数”,接下来对“访问次数”举行时间和条件筛选(“上月访问次数” > "0" ),就完成了监控人群的圈选,将这个筛选条件应用于基础指标“活泼客户数”,即可完成派生指标“留存客户数”的定义。留存率的定义就非常简单了。
因为指标的背后现实上是 Aloudata CAN 的语义模子而不是物理表,我们将访问事件表和客户维度表建立关联关系,对留存率做分析时,就可以从客户维度表的各个维度举行下钻。差别维度的组合现实上是把客群做了差别的划分。这样不仅能看到整体时间维度上的留存率表现,还能基于时间维度下钻看差别年龄段、差别地区、差别消费品级用户的留存率表现,业务上就可以针对细分人群去做动作了。
还有一个常见的分析场景是根据丰富的维度举行客户画像的圈选和分析。同样通过指标标签化的方式,业务可以拿到最全的数据,自己圈选出想要分析的人群,再通过丰富的维度准确地刻画出想要的客户画像。这就是 Aloudata CAN 通过基于数仓明细数据举行语义建模、联合丰富的分析函数,给业务提供了一个虚拟的明细大宽表的分析体验。
3.3 准
末了,我们来看“准”。
对于“准”,最基本的要求是指标口径一定要划一。这依靠于 Aloudata CAN 在指标规范管理方面的产品能力。
我们将指标的规范管理分为三个阶段。
实现指标管理,首先要有一个全局的规划。在这个阶段,Aloudata CAN 支持企业按照业务和管理的需求定义指标的类目,以及对指标按照影响面或紧张水平举行分类分级。同时我们也支持自定义扩展属性,适配企业的指标管理与使用规范。
有了全局规划后,进入具体的指标定义、管理和使用阶段。
在这个阶段,我们首先会做指标的生命周期管理,提供指标上线、变动和下线的发布审批功能。对于指标口径变动,我们会提供指标的多版本。
其次是指标的质量管理。我们经常发现指标同名差别义、同义差别名的环境。这种环境在数仓和物理表中广泛存在,需要举行专门的口径管理。如今我们希望通过指标平台将这种事后管理变成事前管控。
所谓事前管控,就是指通过指标重复的校验,避免相同名称或相同盘算逻辑的指标的重复定义。因为 Aloudata CAN 由体系实现自动化的指标开辟,因此在发布时,具有自动举行同名或同义校验的能力,检查相同名称的指标是否已经存在,以及相同盘算逻辑的指标是否已经存在。
很多企业存在指标盘货梳理的痛点,Aloudata CAN 会清楚地展示指标之间的血缘关系和开辟链路,为指标管理和管理提效。
指标预警监控对企业至关紧张,Aloudata CAN 支持设置告警规则,体系自动举行指标监控,一旦指标数据异常,会自动通知。
在指标的使用管理方面,Aloudata CAN 提供丰富的权限管控,包括指标的查看权限和使用权限,以及使用的数据范围和行级权限设置。
末了,每个企业的指标会随着业务发展动态调整。指标在全生命周期中需要持续的运营和监控。Aloudata CAN 提供指标的使用分析和资源分析功能,帮助企业随时相识指标的消费环境。对于没有消费的指标会提出下线发起,以形成指标管理的闭环。
上述是产品层的能力,但为了确保指标质量的“长治久安”,我们发起要将工具与管理机制相联合。