ToB企服应用市场:ToB评测及商务社交产业平台

标题: 2024数据仓库建设规范指南 [打印本页]

作者: 络腮胡菲菲    时间: 2024-12-21 05:51
标题: 2024数据仓库建设规范指南
01 为什么要有数仓规范?


俗话说的好,无规矩不成方圆,没有规范岂不乱套了? 个人觉得,规范是为了解决团体作战中的效率和协同问题,是对终极交付质量的有力包管。

大家工作中有没有遇到雷同的问题?



由于以上种种问题,造成数仓团队的整体开发效率、产出质量、工作幸福感、数仓维护本钱等等越来越差。随着职员运动,通常受累的往往是那些任劳任怨、对公司忠诚的员工。

信赖做过数据开发的人,多多少少都会有过上边提到的部分苦恼。我觉得问题的根源通常在于没有规范大概规范没有得到贯彻。大家偶然候为了按时完成业务侧的需求,走些捷径也是可以理解的,但是欠下的技术债应该尽早还上,并且组织不应该苛责员工,这个锅应该领导来背。领导器重大家就都器重,领导不器重,岂不各个放飞自我了?

数据仓库,是我们数据工程师的无形产品。数据规范是数仓体系建设的'语言',是数据使用的说明书和翻译官,同时也是数据质量的保驾护航者。为了数据体系能够恒久健康的发展,数仓管理,应该从人治逐步转变到制度化、规范化、工具化的道路上了来。


02 数仓规范该怎么落地?



1、规范订定


从 0 到 1,从无到有,这个环节应该有 Leader 或架构师,充分考虑公司实际情况,参考行业尺度或约定俗成的规范,综合统一订定。

也可以将规范拆分后交由各个部分核心开发职员编写, Leader 或架构师统一整合。好比我们之前的团队就是,模子设计师负责模子设计规范,ETL 工程师负责 ETL 开发规范,BI 开发职员订定前端开发规范,摆设上线规范直接采用项目上已有的即可。

总体上,初稿应该尽量包管规范的完备性和各个部分间的兼容性。

2、规范讨论


初稿完成后,难免有考虑不周的情况,这时间最好有 Leader  牵头,组织部分核心成员(人数不易太多,三五个即可。人多轻易造成杂乱、决策困难、没有人提意见造成 Leader 一言堂等等问题。)进一步完善各个细节,纠正初稿的不敷。

多人共同完善的规范,理论上来讲不会有什么大问题了。

3、规范推行


定稿后,规范已经具备了全面推广的条件,可以下发所有团队成员。



为了确保规范的贯彻落实,除了通过以上两点引起全员器重外,还需要组织、制度、流程上的多方面保障。




4、规范的执行监督


规范的执行监督,上边提到的,更多是依靠制度流程以及相关人的自觉性,制度流程又依赖于人。这会带来如下几个问题:

短期坚持还好,但长期的专注很难。

偶然候人忙起来了,快速产出和规范该选哪个?代码 Review 还要不要做?新建的表要不要找数据架构师考核?

数据建模最好是有专门的人大概小团队去做,其他人使用,这往往会影响整体效率,以是通常都是谁用谁建,但撒出去后再想靠人去检查合规性,真的就太难了。

有条件的最好引入相应的工具加强羁系。

好比,我们有指标体系元数据、有词根库元数据、有建表的元数据、有 ETL 流程的元数据等等。

那我们是否可以开发部分报表或别的页面,通过 UI 辅助人去检查,大概通过校验元数据的方法去羁系(好比备注是否为空、字段或表定名里的词根是否都在词根库里存在、表或页面等用到的指标是否都存在于指标体系、数据血缘中是否存在闭环大概孤立的节点)。

5、规范完善


发行稿,从大面上应该不会有啥问题,但细节上可能会有考虑不周的情况,在宣讲阶段、执行阶段遇到问题拦阻的时间,应该根据实际情况对规范做出调整,唯有经过实践检验才能愈发完善,信赖经过一段时间的持续实践,规范会成为组织文化的一部分,进而降低沟通本钱、进步开发效率、包管交付质量,从而实现团队和个人的双赢。


03 数仓规范有哪些?


为了让大家了解到数仓规范全貌,特意花鼎力大举气整理出以上分类。欢迎大家推广普及运用。由于只是一家之言,大家如有差别的见解、更好的方案大概有可以再增补的,欢迎关注我们一起进步。


这里,把数仓规范一共分为四大类:设计规范、流程规范、质量管理规范、安全规范。

设计规范,又划分为四部分:数据模子设计、定名规范、指标体系设计、词根库。

流程规范,主要是从数仓管理的角度,对数仓场景下的各种流程进行约束。核心流程一共提炼出来五类:需求提交、模子设计、ETL开发、前端开发、上线流程。

质量管控规范,之以是单独列出来,是因为数据质量,跟模子设计一样,对数仓建设的成败关系极大。试想下,一个数据质量都无法包管的数据仓库,有谁会用?  数据质量规范,主要是从数据运动的角度分为三类:源端管控、数仓管理、应用管控。

安全规范,随着国家、社会、企业对数据的越来越器重,另一方面随着互联网的普及使得个人隐私变的越来越难以包管,数据泄漏时有发生。数据安全对于数据仓库的重要水平急速提升,以是安全规范被单列了出来。从大的层面上安全规范分为三类:网络安全、账号安全、数据安全。




04 设计规范



1、数据模子设计


横向分层
纵向分域



2、定名规范

统一规范



3、代码设计规范




4、指标体系建设




05 流程规范




1、需求提交流程





2、模子设计流程





3、ETL开发流程



前端开发规范



4、上线流程



06 质量管控规范




1、源端管控





2、数仓管理




3、应用管控




07 安全规范



网络安全





账号安全





数据安全




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4