论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
大数据
›
数据仓库与分析
›
DAG任务调度系统 Taier 演进之道,探究DataSourceX 模块 ...
DAG任务调度系统 Taier 演进之道,探究DataSourceX 模块
络腮胡菲菲
论坛元老
|
2022-12-28 20:07:12
|
显示全部楼层
|
阅读模式
楼主
主题
1012
|
帖子
1012
|
积分
3036
熟悉Taier的小伙伴们应该都知道,在11月7日发布的
Taier1.3新版本
中,我们融合了「DataSourceX 模块」。这是十分重要的一个变化,移除Taier外部插件依赖,新增数据源插件相关特性,支持后续Taier对接更多的RDBMS类型的SQL任务。
本篇文章,就带大家详细了解一下DataSourceX 的作用及设计。
DataSourceX 模块的作用
为什么说 DataSourceX 是一个非常重要的模块?
在 Taier 中 RDB SQL 任务的运行,向导模式的数据同步、实时采集、FlinkSQL 任务配置都是依托数据源来进行的,其中保证数据源的正常使用以及 RDB SQL运行、任务所需的库、表、字段等信息的获取都是依靠
DataSourceX 模块
来做的。
下文展开聊聊Taier-DataSourceX 模块的具体功能。
数据源中心添加数据源
数据源中心
添加数据源时需要进行数据源连通性检测,确保数据源是真正可用的,具体就是通过调用 DataSourceX 模块来实现。连通性检测通过之后,可以进行数据源的保存,并在任务中进行引用。
数据同步任务-数据源配置
数据同步任务源表结果表配置中的表、字段等信息都是通过 DataSourceX 模块进行获取。
FlinkSQL任务-数据源配置
FlinkSQL 中源表 topic 获取、数据预览等,结果表维表字段、
数据预览
等都是通过 DataSourceX 模块进行实现。
RDB SQL运行
Taier 1.3版本中,RDB SQL任务和数据源进行了绑定,不需要再像之前一样在控制台配置计算引擎,DataSourceX 中支持的
RDB数据源
都可以做RDB SQL的运行,比如像 OceanBase SQL 就可以通过 DataSourceX 模块来运行。
On Yarn任务日志
On Yarn 任务运行结束的聚合日志通过 DataSourceX 模块进行获取。
Taier-DataSourceX 其他功能
• Taier-DataSourceX 模块统一了各种数据源间的相同操作,提供了一组相同的接口来对不同的数据源进行操作,使得 Taier 可以更轻松的
集成不同的数据源
,支持更多的 RDB SQL 和数据源
• Taier-DataSourceX 模块支持几十种 RDB 数据源并支持开启池化管理,支持 hdfs、ftp、s3 等存储组件,支持 mongoDB、es、redis 等非关系型数据库
• Taier-DataSourceX 模块本身支持并统一了
kerberos 认证逻辑
,对于支持开启 kerberos 认证的数据源,Taier 本身并不关心底层的实现逻辑,而是交由 DataSourceX 模块来完成
• Taier-DataSourceX 模块基于 ChildFirstClassLoader 并结合 SPI 支持在同一个应用中对接不同版本的数据源,如 Taier 可以同时支持 Hive1.x、Hive2.x、Hive3.x 三种不同版本的 Hive
DataSourceX 模块的设计
了解完 DataSourceX 的丰富功能之后,接下来带大家了解Taier-DataSourceX 模块的设计。
统一的 Client 接口
Taier-DataSourceX-api 模块定义了 SPI 服务接口,具体实现由
Taier-DataSourceX-plugin
来完成。
插件隔离加载
Taier-DataSourceX 会对每一个类型的数据源模块打包成一个单独的 jar 并放到指定目录。
Taier-DataSourceX-api 模块为每个插件包初始化一个 ChildFirstClassloader 隔离加载不同的数据源实现对象,解决多版本驱动同时加载的类冲突问题。
Client 对象统一代理
Taier-DataSourceX 模块加载的 Client 对象是
通过动态代理生成的代理对象
,方便进行统一的异常处理、重试、超时、上下文 Classloader 的切换等处理。
连接池化管理
Taier-DataSourceX 模块针对 RDB 数据源或其他数据源进行的
统一池化管理
,支持开启连接池,为相同的数据源初始化一个连接池,控制资源使用和提升程序运行效率。
针对不开启连接池的连接进行统一管理,及时清理过期连接。
资源的统一管理
Taier-DataSourceX 模块针对初始化的 Classloader、Client 对象、执行线程池进行统一管理,在插件包变更、新增、删除时动态检测并销毁或新增资源。
Taier 1.3 新版本
Taier自今年2月份开源之后,得到了社区开发者的广泛支持,我们积极吸收社区开发者的意见建议,不断迭代版本,已于11月7日发布了
全新的1.3 版本
,进行了多项功能改动。
技术改造
• DataSourceX 融合
• 部署优化
数据开发
• 任务支持指定队列运行
• 任务数据源绑定
新增功能
• 新增Flink Standalone
• 新增Python、Shell任务,新增ClickHouse、Doris SQL任务
视频回放&PPT获取
视频回看:
https://www.bilibili.com/video/BV1wW4y1T7EC/?spm_id_from=333.337.search-card.all.click
课件获取:
关注公众号“数栈研习社”,后台私信“Taier”获得直播课件
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:
https://github.com/DTStack
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
络腮胡菲菲
论坛元老
这个人很懒什么都没写!
楼主热帖
论销售、售前的互助与博弈
C++读写文件
B站狂神Docker学习笔记
Python:灵活的开发环境
微信分享iOS Universal Link配置说明 ...
SPSS计算极值、平均值、中位数、方差、 ...
AAA
.NET WebAPI 使用 GroupName 对 Contro ...
视图
UWP/WinUI3 PixelShaderEffect 实现Thr ...
标签云
运维
CIO
存储
服务器
浏览过的版块
物联网
移动端开发
开源技术
云原生
备份
Mysql
linux
分布式数据库
快速回复
返回顶部
返回列表