论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
Oracle
›
深度解析:基于离线开发的数据仓库转型落地案例 ...
深度解析:基于离线开发的数据仓库转型落地案例
火影
论坛元老
|
2024-9-5 17:02:41
|
显示全部楼层
|
阅读模式
楼主
主题
1763
|
帖子
1763
|
积分
5289
在当今这个数据驱动的时代,各行各业都端庄历着前所未有的厘革。伴随技术的飞速发展,
数据仓库
作为企业数据管理与分析的核心,如何更好地发挥作用,助力企业保持业务的敏捷性与成本效益,成为大家关心的焦点标题。本文将通过具体案例分析,展现基于
离线
开发
的数据仓库转型落地中的关键步骤与实施计谋。
一、业务增长迅速,原数仓架构难以为继
客户A是一家中美合资的泛金融行业公司,成立时间短但业务增长十分迅速。数仓团队规模不到10个人,委曲能支撑起业务需求,在面对越来越高要求的业务数据供给及公司内部降本增效的趋势下,团队也在不断探索新型的数仓平台模式,目前数仓架构如下图:
客户底座集群采购了CDP7.1.6、数据集成采用Sqoop,将业务库的数据同步至HDFS后,通过Hive SQL做数据
开发
。另有少量的Shell、Python任务,使用Oozie进行离线任务调度。
二、当前数据平台标题日渐凸显
随着业务体量的逐渐增长,当前数据平台架构的标题也逐渐凸显:
1.
运维
成本高
:Sqoop和Oozie都是开源工具,集成性一般,组件的升级和非常排查必要耗费较多人力成本。
** 2. 平台上手门槛高**:除数据
开发
外,很多业务方也盼望直接在平台进行临时取数,但因上手门槛高,业务方一直没用起来,导致大量简单的需求仍堆积到数据
开发
侧,并且得不到快速相应。
3. 现有
开发
模式无法满足数据
开发
合规要求
:目前数据
开发
环境仅有一套生产环境,对任务和数据做的任何变更都直接影响线上业务,操纵高风险,多次因人为失误导致线上故障。
4. 任务依赖配置繁琐且易出错
:目前几乎全部的任务每个工作日4批次调度,任务与任务之间的依赖通过HDFS信号文件通知实现,常常出现信号文件缺失或产出超时导致的卑鄙任务失败。
5.
开发
职员程度不一,代码质量难监控
:
运维
职员人工巡检时常常看到部分任务运行时间长占用大量资源,大多数情况下是SQL代码质量标题导致,然而目前无法在事前进行规范约束和监控。另外因数据集成小时任务多,大部分数据
开发
没有调参意识,造成小文件大量堆积。
6.数据产出延迟标题排查困难
:每天早上9点的数据产出常常出现延迟,因依赖链路长,难以排查数据延迟源头,卑鄙反馈多次影响业务。
7. 接口没有统一管控
:API重复
开发
、越权调用标题频发,管理不到位且管理困难。
三、重塑数据
开发
平台,提拔服从和满意率
袋鼠云数栈团队针对客户A的以上标题设计了新的产品架构,帮助客户重新搭建数据
开发
平台,有效办理使用痛点,提拔数据
开发
职员的工作服从和业务职员满意率。
针对客户上述标题,数栈结合已有功能给出的解题如下:
1.
运维
成本大大降低
数栈的数据集成、
开发
与调度均为自研,全部模块天然集成,且有专门的
运维
与技术支持团队服务,客户的
运维
成本几乎降到0。
2. 平台上手门槛降低,
开发
模式满足数据
开发
合规要求
用数栈搭建的
开发
平台设计了
5套环境
(统一开启集群级Kerberos认证),平台登录对接客户的LDAP账号单点登陆,让数据
开发
和业务方都可直接使用。
固然相比原始的
开发
平台,数栈在操纵门槛和体验上均有了质的提拔,但为了让更多业务方直接加入到数据
开发
过程中来,我们把数栈单独划分了一套UDS环境,实现让业务方在业务系统中直接写SQL,然后业务系统通过调用SDK把SQL提交到数栈的UDS环境上运行并返回结果,由CDP自带的Ranger对任务提交的LDAP用户进行数据权限管控及校验。在Kerberos开启的情况下LDAP身份认证会弱化,因此数栈
开发
了租户级Hadoop署理的功能,通过署理能定位到原始提交LDAP账号,实现用户认证还原。
针对数据
开发
用户,
开发
环境分为了SIT、UAT、pre-PROD、PROD 4套环境,其中pre-PROD、PROD环境与SIT、UAT网络隔离以保证生产数据的安全。数据
开发
在SIT环境进行离线任务
开发
,自测通过后将任务一键发布至UAT环境由测试职员做测试数据验证,通过后由
运维
将任务及相关内容打包并发起发布申请流程,经管理员审批通过后自动由jenkins投产至预发环境pre-PROD进行生产数据验证,等到生产环境更新窗口期再由管理员发布至生产环境,因生产环境严酷不允许有个人用户操纵,为了保障任务发布后可正常运行,在发布至生产环境时会自动将任务和责任人统一替换为系统用户。
3. 任务依赖配置简化
使用数栈进行任务依赖配置时无须关心信号文件的创建和状态,每个任务仅需配置其直接上游,当上游任务延迟或失败时卑鄙会在有效期范围内进行等候,上游修复后卑鄙即能自动运行。数栈的
调度周期
可通过Cron表达式或者上传自定义调度日历的方式配置,针对客户“工作日每天6点、8点、16点、18点”或者更不规律的周期调度场景,可用一个excel文件一次性上传一年的调度日历在批量任务中使用。
4. 上线代码检查功能,提拔代码质量
针对
开发
职员代码规范性意识不统一标题,数据资产模块上线了代码检查功能,平台内置了一些代码检查规则例如禁止ddl操纵、禁用Select * 等(此外也可按企业内部个性化的代码要求
开发
自定义检查规则),在离线项目中可由管理员选择目的任务开启代码检查,开启后,数据
开发
在进行任务运行或提交前将由平台实行代码扫描,若扫描结果触发了代码检查规则中的强规则/弱规则,则分别给出阻止提交运行/提示的处理;
客户目前的
Hive SQL任务
较多,在代码检查规则监控的底子上我们增长了Hive SQL任务运行资源监控的功能,可在任务运行过程中查看详情监控cpu和memory使用情况,管理员也可在监控诉警中配置资源使用上限告警,当任务使用资源过大时实时通知相关职员处理。
针对小文件标题,数栈的
运维
管家EasyManager可开启HDFS文件数量监控,另外数据资产支持小文件治理功能,可选择小文件突出的schema进行周期或临时检查和治理(即小文件合并),双重保障避免因小文件标题影响集群性能。
5. 多批次监控诉警,让标题排查更简单
数据产出延迟告警标题可以通过
基线告警
办理,但客户大部分是一天4批次的小时任务,在单批次天任务基线监控的底子上我们新增了多批次监控的功能,对于纳入同一多批次监控的任务每天生成多个基线实例,实现一条基线一次配置后每个批次分别监控分别告警的效果。
6. API统一
开发
和管理
通过数栈的数据服务进行API的统一
开发
和管理,可实现跨项目的API市场统一查看和调用权限申请,减少重复
开发
,用户在调用API时可按
Token及AK/SK多种认证方式
进行权限校验,调用明细也会在平台内完备记录,充分保障调用安全;
以上数栈给出的办理方案与用户体验为后续客户的数据平台深度建设打下了精良的底子,得到了客户的好评,未来袋鼠云将继续全链路打磨产品,自动为客户提供更大的价值。
《行业指标体系白皮书》下载地址:
https://www.dtstack.com/resources/1057?src=szsm
《数栈产品白皮书》下载地址:
https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:
https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业办理方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=szbky
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
火影
论坛元老
这个人很懒什么都没写!
楼主热帖
最全Windows98原版系统镜像下载(特点 ...
如何配置 SLO
Linux 基本指令
SAP各模块优缺点和发展简析
Spring(SpringBoot)--解决拦截器中注入 ...
软件项目管理 4.3.敏捷需求建模方法 ...
Redis 原理 - String
Spring Security登录表单配置(3) ...
微信小程序+web数据库的开发实践 ...
用python反弹shell
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表