大数据-254 离线数仓 - Airflow 使命调度 焦点交易调度使命集成 ...

王柳  金牌会员 | 2024-12-26 13:57:27 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 821|帖子 821|积分 2463

点一下关注吧!!!非常感谢!!一连更新!!!

Java篇开始了!

现在开始更新 MyBatis,一起深入浅出!
现在已经更新到了:



  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据发掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(正在更新…)
章节内容



  • Airflow 使命调度
  • 焦点概念与现实案例测试
  • Py脚本编写

使命集成摆设

Airflow 基本介绍

Apache Airflow 是一个开源的使命调度和工作流管理工具,用于编排复杂的数据处理使命。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义使命及其依赖关系,支持使命的调度和监控,恰当处理复杂的大数据使命。
Airflow 的特点



  • 以代码为中心:Airflow 使用 Python 定义 DAG,提供机动性和可编程性。
  • 扩展性强:用户可以自定义 Operator 和 Hook,集成各种数据源和工具。
  • 强大的 UI 界面:提供可视化界面监控使命状态、查看日志、重试失败使命等。
  • 丰富的调度选项:支持基于时间 (Time-based) 和变乱 (Event-based) 的调度。
  • 高可用性:共同 Celery 和 Kubernetes 等实验器,支持分布式架构,恰当处理大规模使命。
使用场景

数据管道调度

用于管理数据从源到目标的 ETL 流程。
如每天从数据库中抽取数据、洗濯后存入数据仓库。
机器学习工作流管理

调度数据预处理、模型训练和模型摆设使命。
数据验证

主动化查抄数据的质量和一致性。
定期使命主动化

定时清理日志、归档数据或生成陈诉。
Airflow焦点概念

DAGs

有向无环图(Directed Acyclic Graph),将所有需要运行的tasks按照依赖关系组织起来,描述的是所有tasks实验的顺序
Operators

Airflow内置了很多Operators



  • BashOperator 实验一个Bash命令
  • PythonOperator 调用任意的Python函数
  • EmailOperator 用于发送邮件
  • HTTPOperator 用于发送HTTP请求
  • SqlOperator 用于实验SQL命令
  • 自定义 Operator
Task

Task:Task是Operator的一个实例
Task Instance

Task Instance:由于Task会被重复调度,每次Tasks的运行就是差别的Task Instance,Task Instance 有本身的状态,包括 success、running、failed、skipped、up_for_rechedule、up_for_retry、queued、no_status等
Task Relationships

Task Relationships:DAGs中的差别Tasks之间可以有依赖关系
焦点交易调度使命集成

焦点交易分析

之前我们已经写了很多脚本,可以在这里调度
  1. # 加载ODS数据(DataX迁移数据)
  2. /opt/wzk/hive/ods_load_trade.sh
  3. # 加载DIM层数据
  4. /opt/wzk/hive/dim_load_product_cat.sh
  5. /opt/wzk/hive/dim_load_shop_org.sh
  6. /opt/wzk/hive/dim_load_payment.sh
  7. /opt/wzk/hive/dim_load_product_info.sh
  8. # 加载DWD层数据
  9. /opt/wzk/hive/dwd_load_trade_orders.sh
  10. # 加载DWS层数据
  11. /opt/wzk/hive/dws_load_trade_orders.sh
  12. # 加载ADS层数据
  13. /opt/wzk/hive/ads_load_trade_order_analysis.sh
复制代码
备注:depeds_on_past,设置为True时,上一次调度成功时,才可以触发
编写脚本

  1. vim $AIRFLOW_HOME/dags/trade_test.py
复制代码
写入的内容如下所示:
  1. import datetime
  2. from datetime import timedelta, date
  3. from airflow import DAG
  4. from airflow.operators.bash_operator import BashOperator
  5. from airflow.utils.dates import days_ago
  6. # 定义 DAG 的缺省参数
  7. default_args = {
  8.     'owner': 'airflow',
  9.     'depends_on_past': False,
  10.     'start_date': datetime.datetime(2020, 6, 20),
  11.     'email': ['airflow@example.com'],
  12.     'email_on_failure': False,
  13.     'email_on_retry': False,
  14.     'retries': 1,
  15.     'retry_delay': timedelta(minutes=5),
  16. }
  17. # 定义 DAG
  18. coretradedag = DAG(
  19.     'coretrade',
  20.     default_args=default_args,
  21.     description='Core trade analyze',
  22.     schedule_interval='30 0 * * *',  # 每天00:30运行
  23. )
  24. # 获取昨天的日期
  25. today = date.today()
  26. oneday = timedelta(days=1)
  27. yesterday = (today - oneday).strftime("%Y-%m-%d")
  28. # 定义任务
  29. odstask = BashOperator(
  30.     task_id='ods_load_data',
  31.     depends_on_past=False,
  32.     bash_command=f'sh /opt/wzk/hive/ods_load_trade.sh {yesterday}',
  33.     dag=coretradedag,
  34. )
  35. dimtask1 = BashOperator(
  36.     task_id='dimtask_product_cat',
  37.     depends_on_past=False,
  38.     bash_command=f'sh /opt/wzk/hive/dim_load_product_cat.sh {yesterday}',
  39.     dag=coretradedag,
  40. )
  41. dimtask2 = BashOperator(
  42.     task_id='dimtask_shop_org',
  43.     depends_on_past=False,
  44.     bash_command=f'sh /opt/wzk/hive/dim_load_shop_org.sh {yesterday}',
  45.     dag=coretradedag,
  46. )
  47. dimtask3 = BashOperator(
  48.     task_id='dimtask_payment',
  49.     depends_on_past=False,
  50.     bash_command=f'sh /opt/wzk/hive/dim_load_payment.sh {yesterday}',
  51.     dag=coretradedag,
  52. )
  53. dimtask4 = BashOperator(
  54.     task_id='dimtask_product_info',
  55.     depends_on_past=False,
  56.     bash_command=f'sh /opt/wzk/hive/dim_load_product_info.sh {yesterday}',
  57.     dag=coretradedag,
  58. )
  59. dwdtask = BashOperator(
  60.     task_id='dwd_load_data',
  61.     depends_on_past=False,
  62.     bash_command=f'sh /opt/wzk/hive/dwd_load_trade_orders.sh {yesterday}',
  63.     dag=coretradedag,
  64. )
  65. dwstask = BashOperator(
  66.     task_id='dws_load_data',
  67.     depends_on_past=False,
  68.     bash_command=f'sh /opt/wzk/hive/dws_load_trade_orders.sh {yesterday}',
  69.     dag=coretradedag,
  70. )
  71. adstask = BashOperator(
  72.     task_id='ads_load_data',
  73.     depends_on_past=False,
  74.     bash_command=f'sh /opt/wzk/hive/ads_load_trade_order_analysis.sh {yesterday}',
  75.     dag=coretradedag,
  76. )
  77. # 定义任务依赖关系
  78. odstask >> dimtask1
  79. odstask >> dimtask2
  80. odstask >> dimtask3
  81. odstask >> dimtask4
  82. odstask >> dwdtask
  83. dimtask1 >> dwstask
  84. dimtask2 >> dwstask
  85. dimtask3 >> dwstask
  86. dimtask4 >> dwstask
  87. dwdtask >> dwstask
  88. dwstask >> adstask
复制代码
实验的结果如下图所示:

查看结果

查抄脚本的问题:
  1. # 执行命令检查脚本是否有错误。如果命令行没有报错,就表示没问题
  2. python $AIRFLOW_HOME/dags/trade_test.py
复制代码
实验结果如下图所示:

列出所有的内容
  1. airflow dags list
复制代码
运行结果如下图所示:

列出树形布局:
  1. airflow tasks list coretrade --tree
复制代码
实验结果如下图所示:
  1. (airflow_env) [root@h122 airflow]# airflow tasks list coretrade --tree
  2. <Task(BashOperator): ods_load_data>    <Task(BashOperator): dimtask_payment>        <Task(BashOperator): dws_load_data>            <Task(BashOperator): ads_load_data>    <Task(BashOperator): dimtask_product_cat>        <Task(BashOperator): dws_load_data>            <Task(BashOperator): ads_load_data>    <Task(BashOperator): dimtask_product_info>        <Task(BashOperator): dws_load_data>            <Task(BashOperator): ads_load_data>    <Task(BashOperator): dimtask_shop_org>        <Task(BashOperator): dws_load_data>            <Task(BashOperator): ads_load_data>    <Task(BashOperator): dwd_load_data>        <Task(BashOperator): dws_load_data>            <Task(BashOperator): ads_load_data>(airflow_env) [root@h122 airflow]#
复制代码
对应的截图如下:

关系图如下:


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王柳

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表