论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
大数据-251 离线数仓 - Airflow 任务调度系统 安装部署 ...
大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试 ...
小小小幸运
金牌会员
|
2024-12-18 22:14:08
|
显示全部楼层
|
阅读模式
楼主
主题
730
|
帖子
730
|
积分
2190
点一下关注吧!!!非常感谢!!连续更新!!!
Java篇开始了!
如今开始更新 MyBatis,一起深入浅出!
如今已经更新到了:
Hadoop(已更完)
HDFS(已更完)
MapReduce(已更完)
Hive(已更完)
Flume(已更完)
Sqoop(已更完)
Zookeeper(已更完)
HBase(已更完)
Redis (已更完)
Kafka(已更完)
Spark(已更完)
Flink(已更完)
ClickHouse(已更完)
Kudu(已更完)
Druid(已更完)
Kylin(已更完)
Elasticsearch(已更完)
DataX(已更完)
Tez(已更完)
数据发掘(已更完)
Prometheus(已更完)
Grafana(已更完)
离线数仓(正在更新…)
章节内容
ADS层
Airflow 任务调度系统根本介绍
Airflow 根本介绍
Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开辟,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式界说任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
Airflow 的特点
以代码为中心
Airflow 利用 Python 界说 DAG,提供机动性和可编程性。
扩展性强
用户可以自界说 Operator 和 Hook,集成各种数据源和工具。
强大的 UI 界面
提供可视化界面监控任务状态、查察日记、重试失败任务等。
丰富的调度选项
支持基于时间 (Time-based) 和事件 (Event-based) 的调度。
高可用性
配合 Celery 和 Kubernetes 等实行器,支持分布式架构,适合处理大规模任务。
利用场景
数据管道调度
用于管理数据从源到目标的 ETL 流程。
如每天从数据库中抽取数据、清洗后存入数据仓库。
呆板学习工作流管理
调度数据预处理、模型训练和模型部署任务。
数据验证
自动化查抄数据的质量和同等性。
定期任务自动化
定时清理日记、归档数据或生成陈诉。
Airflow安装部署
安装依赖
CentOS 7.x
Python 3.5 以上版本
MYSQL 5.7.x
Apache-Airflow 1.10.11
捏造机可上网,需要在线安装包
备注:背面要安装三个软件Airflow、Atlas、Griffin,相对Hadoop的安装都较为复杂
正式安装软件之前给捏造机做一个快照
按照课本中指定的软件安装
按照课本的步调实行对应的下令,下令的遗漏会对背面的安装造成影响
pip install apache-airflow -i https://pypi.tuna.tsinghua.edu.cn/simple
# 后续不一定需要 如果报错 根据缺少的依赖补齐即可
# 不一定需要
pip install mysqlclient -i https://pypi.tuna.tsinghua.edu.cn/simple
# 不一定需要
pip install SQLAlchemy -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
安装过程如下所示:
环境变量
# 设置目录(配置文件)
# 添加到配置文件/etc/profile。未设置是缺省值为 ~/airflow
export AIRFLOW_HOME=/opt/servers/airflow
复制代码
配置的结果如下所示:
初始化环境
airflow initdb
复制代码
实行结果如下所示:
此时我们修改配置文件:
vim /opt/servers/airflow/airflow.cfg
复制代码
查察 sql_alchemy_conn,修改一下内容:
mysql://hive:hive%%40wzk.icu@h122.wzk.icu:3306/airflow_db
复制代码
修改的内容如下所示:
修改之后,生存,重新实行初始化操作(需要在数据库中确认已经建立了 airflow_db)
airflow db init
复制代码
可以看到顺利的实行实行了
查察数据库
可以看到数据库中的表已经通过刚才的指令生成出来了:
创建用户
airflow users create \
--username wzkicu \
--firstname wzk \
--lastname icu \
--role Admin \
--email airflow@wzk.icu
复制代码
生成结果如下图所示:
启动服务
airflow scheduler -D
airflow webserver -D
复制代码
启动结果如下图:
启动结果如下图:
访问服务
http://h122.wzk.icu:8080
复制代码
可以看到访问结果如下所示:
输入刚才创建的账号和密码:
Web界面
Trigger Dag:人为实行触发
TreeView:当dag实行的时候,可以点入,查察每个Task的实行状态(基于树状视图),状态:success、running、failed、skipped、retry、queued、no status
Graph View:基于图视图(有向无环图) 查察每个Task的实行状态
Tasks Duration:每个Task的实行时间统计,可以选择最近多少次实行
Task Tries:每个Task的重试次数
Gantt View:基于甘特图的视图,每个Task的实行状态
Code View:查察任务实行代码
Logs:查察实行日记,比如失败缘故原由
Refresh:刷新dag任务
DELETE Dag:删除该Dag任务
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
小小小幸运
金牌会员
这个人很懒什么都没写!
楼主热帖
收藏:再谈软件定义存储发展及现状 ...
5.2 基于ROP漏洞挖掘与利用
软件项目管理 7.4.5.进度计划编排-敏捷 ...
【.NET】控制台应用程序的各种交互玩法 ...
权限提升(1)
Ubuntu如何安装Mysql+启用远程连接[完 ...
唯一/普通索引的选择?change buffer ...
【Visual Leak Detector】QT 中 VLD 输 ...
每日算法之左旋转字符串
Django笔记三十八之发送邮件
标签云
挺好的
服务器
快速回复
返回顶部
返回列表