论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
实时开发平台建设实践,深入释放实时数据价值丨04期直播 ...
实时开发平台建设实践,深入释放实时数据价值丨04期直播回顾 ...
九天猎人
金牌会员
|
2022-6-23 14:27:27
|
显示全部楼层
|
阅读模式
楼主
主题
764
|
帖子
764
|
积分
2292
原文链接:
实时开发平台建设实践,深入释放实时数据价值
视频回顾:
点击这里
课件获取:
点击这里
一、实时数仓建设背景
随着整体行业的数字化转型不断深入以及技术能力的不断提高,传统的 T+1 式(隔日)的离线大数据模式越来越无法满足新兴业务的发展需求,开展实时化的大数据业务,是企业深入挖掘数据价值的一条必经之路。
面对数字化转型下的数据快速产生、“小步快跑”的精细化运营及实时化和自动化的决策需求,如何提高实时数据处理能力将成为企业提升竞争力的一大因素。
而企业在建设实时数据应用时,又往往面临诸多困难:
实时开发技术门槛高,学习难度大,开发过程依赖各种引擎,链路复杂
开发数据效率低,代码调试复杂
建设成本、使用成本高
数据建模及开发规范不统一,问题难监控,管理困难
为了解决这些问题,我们在实时建设过程中需要确定建设方式和建设目标,帮助企业更好的实现实时数仓建设。
二、实时数仓建设方法论
如何帮助企业建设实时数仓,我们主要从以下四个步骤入手:
1、明确需求
企业进行实时数仓建设的第一步是明确需求,需求需要业务需求和技术需求想结合。
1)业务需求方面:
详细梳理各类实时计算应用场景
详细梳理每个实时指标的具体需求
2)技术需求方面:
详细梳理每个实时指标的数据来源信息
2、技术选型
第二步技术选型阶段,技术选型包括四个方面的选型:
a、整体技术路线
b、采集工具
c、消息中间件+计算引擎及
d、维表、结果表的存储数据库
3、数仓设计与开发
第三步是数仓设计与开发,包含一下三个方面:
a、实时数仓分层设计
b、开发规范
c、代码开发与调试
4、管理与监控
第四步是管理与监控,可以从任务发布、运行监控与告警、实时数据治理这3个部分入手。
三、基于数栈实时开发平台建设实时数仓
分享完实时数仓的建设方法论,接下来来为大家分享实时数仓的建设流程。
第一步:实时采集
基于Chunjun(原FlinkX)对数据库进行CDC采集,实现采集工具化,可对主流数据源进行CDC(日志数据)和通过JDBC(间隔轮询)两种实时采集方式。
1、CDC读取
读取数据库日志的方式,对源库无压力
2、JDBC读取
面向不开放数据库日志的场景,通过高频率的JDBC轮询读取数据,要求有自增字段
第二步:数据开发
1、数据开发基础功能
现在展示的是数据开发的一些基础功能,包括:WEB SQL IDE、可视化建表、维表缓存策略及系统&自定义函数,丰富的底层组件封装,界面化操作,降低开发门槛,使开发人员专注于业务逻辑处理。
2、数据开发高阶功能
除了数据开发的基础功能之外,还有面向特定行业或场景的高阶配置,包括自动重试、自动启停、脏数据管理。
第三步:发布上线
开发完毕之后就是任务的发布上线,发布上线包括任务调试和任务导入导出两个方面。
第四步:任务运维
任务运维就是全局掌控任务的运行,对于一些异常或紧急情况进行处理的过程。
上述的实时数仓建设过程,其实正是袋鼠云自研的数栈实时开发StreamWorks产品的落地实践过程。
云原生一站式大数实时开发平台(StreamWorks)
,面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、任务监控运维的全链路覆盖。支持Flink多版本引擎、Kubernetes资源调度,提供丰富的运维监控曲线,助力企业实时化转型。
图片
同时产品具备以下特点:
采集+计算+运维一体化
内含实时开发全链路工具,采集、计算、运维一体,降低客户使用成本,降低实时计算门槛。
统一元数据管理
支持输出自研Hadoop集群,同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎;节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。
批流一体
支持Flink批流一体式采集+开发, 集成Iceberg,赋能一体式湖仓建设模式。
功能丰富
平台提供任务跨环境发布、代码调试、SQL校验、提交检查、自动启停、批量连接现存任务等丰富功能
云原生支持
在支持YARN+HDFS的基础上,同时支持Kubernetes资源调度、MinIO、OSS等对象存储
同时产品具备3大价值:
降低开发门槛
兼容了多版本引擎、适配多种数据源,封装集成为可视化操作界面。基于Web IDE,图像化配置表信息并使用SQL语言进行开发,降低整体上手门槛
全面运维保障
提供任务全生命周期的可视化运维。全链路拓扑、丰富Metirc曲线展示、多方式多渠道任务告警,帮助用户搭建全面运维体系,提高运维保障。
促进数据规范
协助企业构建实时数仓,建设实时数据标准及规范。搭建一套实时任务调度、任务运行监控及实时任务可靠恢复机制于一体的实时数据平台,保障数据质量,提供统一标准的数据出口。
四、实时数仓建设案例
接下来我们分享两个使用客户的实际案例,为大家介绍实时开发平台如何切实的帮助客户解决问题。
某国有专业经济信息服务机构
某证券客户
五、数栈批流一体架构解析
最后我们为大家介绍一段拓展资料,关于数栈批流一体架构的解析。
批流一体整体架构
批流一体核心价值
批流一体数据建设链路
批流一体采集技术架构
原文来源:VX公众号“数栈研习社”
袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:
https://github.com/DTStack
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
九天猎人
金牌会员
这个人很懒什么都没写!
楼主热帖
从洞察到决策,一文解读标签画像体系建 ...
Flink的API分层、架构与组件原理、并行 ...
袋鼠云平台代码规范化编译部署的提效性 ...
SpringBoot(八) - 统一数据返回,统一 ...
C# 使用流读取大型TXT文本文件 ...
微服务(三)之负载均衡(服务端和客户端) ...
打穿你的内网之三层内网渗透 ...
SQL中的排座位问题
MySQL8.0性能优化(实践)
MySQL中USER()和CURRENT_USER()的区别 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表