ToB企服应用市场:ToB评测及商务社交产业平台
标题:
大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试
[打印本页]
作者:
小小小幸运
时间:
2024-12-18 22:14
标题:
大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试
点一下关注吧!!!非常感谢!!连续更新!!!
Java篇开始了!
如今开始更新 MyBatis,一起深入浅出!
如今已经更新到了:
Hadoop(已更完)
HDFS(已更完)
MapReduce(已更完)
Hive(已更完)
Flume(已更完)
Sqoop(已更完)
Zookeeper(已更完)
HBase(已更完)
Redis (已更完)
Kafka(已更完)
Spark(已更完)
Flink(已更完)
ClickHouse(已更完)
Kudu(已更完)
Druid(已更完)
Kylin(已更完)
Elasticsearch(已更完)
DataX(已更完)
Tez(已更完)
数据发掘(已更完)
Prometheus(已更完)
Grafana(已更完)
离线数仓(正在更新…)
章节内容
ADS层
Airflow 任务调度系统根本介绍
Airflow 根本介绍
Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开辟,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式界说任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
Airflow 的特点
以代码为中心
Airflow 利用 Python 界说 DAG,提供机动性和可编程性。
扩展性强
用户可以自界说 Operator 和 Hook,集成各种数据源和工具。
强大的 UI 界面
提供可视化界面监控任务状态、查察日记、重试失败任务等。
丰富的调度选项
支持基于时间 (Time-based) 和事件 (Event-based) 的调度。
高可用性
配合 Celery 和 Kubernetes 等实行器,支持分布式架构,适合处理大规模任务。
利用场景
数据管道调度
用于管理数据从源到目标的 ETL 流程。
如每天从数据库中抽取数据、清洗后存入数据仓库。
呆板学习工作流管理
调度数据预处理、模型训练和模型部署任务。
数据验证
自动化查抄数据的质量和同等性。
定期任务自动化
定时清理日记、归档数据或生成陈诉。
Airflow安装部署
安装依赖
CentOS 7.x
Python 3.5 以上版本
MYSQL 5.7.x
Apache-Airflow 1.10.11
捏造机可上网,需要在线安装包
备注:背面要安装三个软件Airflow、Atlas、Griffin,相对Hadoop的安装都较为复杂
正式安装软件之前给捏造机做一个快照
按照课本中指定的软件安装
按照课本的步调实行对应的下令,下令的遗漏会对背面的安装造成影响
pip install apache-airflow -i https://pypi.tuna.tsinghua.edu.cn/simple
# 后续不一定需要 如果报错 根据缺少的依赖补齐即可
# 不一定需要
pip install mysqlclient -i https://pypi.tuna.tsinghua.edu.cn/simple
# 不一定需要
pip install SQLAlchemy -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
安装过程如下所示:
环境变量
# 设置目录(配置文件)
# 添加到配置文件/etc/profile。未设置是缺省值为 ~/airflow
export AIRFLOW_HOME=/opt/servers/airflow
复制代码
配置的结果如下所示:
初始化环境
airflow initdb
复制代码
实行结果如下所示:
此时我们修改配置文件:
vim /opt/servers/airflow/airflow.cfg
复制代码
查察 sql_alchemy_conn,修改一下内容:
mysql://hive:hive%%40wzk.icu@h122.wzk.icu:3306/airflow_db
复制代码
修改的内容如下所示:
修改之后,生存,重新实行初始化操作(需要在数据库中确认已经建立了 airflow_db)
airflow db init
复制代码
可以看到顺利的实行实行了
查察数据库
可以看到数据库中的表已经通过刚才的指令生成出来了:
创建用户
airflow users create \
--username wzkicu \
--firstname wzk \
--lastname icu \
--role Admin \
--email airflow@wzk.icu
复制代码
生成结果如下图所示:
启动服务
airflow scheduler -D
airflow webserver -D
复制代码
启动结果如下图:
启动结果如下图:
访问服务
http://h122.wzk.icu:8080
复制代码
可以看到访问结果如下所示:
输入刚才创建的账号和密码:
Web界面
Trigger Dag:人为实行触发
TreeView:当dag实行的时候,可以点入,查察每个Task的实行状态(基于树状视图),状态:success、running、failed、skipped、retry、queued、no status
Graph View:基于图视图(有向无环图) 查察每个Task的实行状态
Tasks Duration:每个Task的实行时间统计,可以选择最近多少次实行
Task Tries:每个Task的重试次数
Gantt View:基于甘特图的视图,每个Task的实行状态
Code View:查察任务实行代码
Logs:查察实行日记,比如失败缘故原由
Refresh:刷新dag任务
DELETE Dag:删除该Dag任务
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4