30分钟掌握沧湖一体化:flink+hudi(干货,建议收藏)_flink hudi sink ...

打印 上一主题 下一主题

主题 870|帖子 870|积分 2610




  • 索引,将传入的记录键快速映射到文件(如果已存在记录键)。索引实现是可插拔的,Bloom过滤器-由于不依赖任何外部系统,因此它是默认配置,索引和数据始终保持同等。Apache HBase-对少量key更高效。在索引标记过程中大概会节省几秒钟。
  • 数据,Hudi以两种差别的存储格式存储数据。实际使用的格式是可插入的,但要求具有以下特性–读优化的列存储格式(ROFormat),默认值为Apache Parquet;写优化的基于行的存储格式(WOFormat),默认值为Apache Avro。

为什么Hudi对于大规模和近实时应用很紧张?

Hudi办理了以下限制


  • HDFS的可伸缩性限制
  • 需要在Hadoop中更快地呈现数据
  • 没有直接支持对现有数据的更新和删除
  • 快速的ETL和建模
  • 要检索全部更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新,Hudi都允许用户使用最后一个检查点时间戳。此过程不用执行扫描整个源表的查询
Hudi的优势



  • HDFS中的可伸缩性限制。
  • Hadoop中数据的快速呈现
  • 支持对于现有数据的更新和删除
  • 快速的ETL和建模
(以上内容主要引用于:Apache Hudi 详解_风中云彩的博客-CSDN博客)
新架构与湖仓一体

通过湖仓一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级,能很好的满足业务准实时数仓的需求。下面是架构图:

MySQL 数据通过 Flink CDC 进入到 Kafka。之以是数据先入 Kafka 而不是直接入 Hudi,是为了实现多个实时使命复用 MySQL 过来的数据,避免多个使命通过 Flink CDC 接 MySQL 表以及 Binlog,对 MySQL 库的性能造成影响。
通过 CDC 进入到 Kafka 的数据除了落一份到离线数据堆栈的 ODS 层之外,会同时按照实时数据堆栈的链路,从 ODS->DWD->DWS->OLAP 数据库,最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓,通过这种方式做到步伐一次开辟、指标口径统一,数据统一。
从架构图上,可以看到有一步数据修正 (重跑汗青数据) 的动作,之以是有这一步是思量到:有大概存在由于口径调解大概前一天的实时使命计算结果错误,导致重跑汗青数据的情况。
而存储在 Kafka 的数据有失效时间,不会存太久的汗青数据,重跑好久的汗青数据无法从 Kafka 中获取汗青源数据。再者,如果把大量的汗青数据再一次推到 Kafka,走实时计算的链路来修正汗青数据,大概会影响当天的实时作业。以是针对重跑汗青数据,会通过数据修正这一步来处置惩罚。
总体上说,这个架构属于 Lambda 和 Kappa 混搭的架构。流批一体数据堆栈的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账,如果前一天实时计算的数据无非常,则不需要修正数据,Kappa 架构已经充足。
(本节内容,引用自:37 手游基于 Flink CDC + Hudi 湖仓一体方案实践)
最佳实践

版本搭配

版本选择,这个问题大概会成为困扰大家的第一个绊脚石,下面是hudi中文社区推荐的版本适配:
flinkhudi1.12.20.9.01.13.10.10.0 官方说的支持版本是这样, 不过如今我的1.13和0.10组合并没有配置成功,以是大家还是只管选择 1.12.2+0.9.0 吧,配合scala 2.11
下载hudi

   https://mvnrepository.com/artifact/org.apache.hudi/hudi-flink-bundle
  执行

如果将 hudi-flink-bundle_2.11-0.9.0.jar 放到了 flink/lib 下,则只需要如下执行即可,否则会出现各种找不到类的非常
   bin/sql-client.sh embedded
  Flink on hudi

新建maven工程,修改pom如下
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <project xmlns="http://maven.apache.org/POM/4.0.0"
  3.         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  4.         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  5.    <modelVersion>4.0.0</modelVersion>
  6.    <groupId>org.example</groupId>
  7.    <artifactId>flink_hudi_test</artifactId>
  8.    <version>1.0-SNAPSHOT</version>
  9.    <properties>
  10.        <maven.compiler.source>8</maven.compiler.source>
  11.        <maven.compiler.target>8</maven.compiler.target>
  12.    </properties>
  13.    <dependencies>
  14.        <dependency>
  15.            <groupId>org.apache.hadoop</groupId>
  16.            <artifactId>hadoop-client</artifactId>
  17.            <version>2.9.2</version>
  18.        </dependency>
  19.        <dependency>
  20.            <groupId>org.apache.hadoop</groupId>
  21.            <artifactId>hadoop-hdfs</artifactId>
  22.            <version>2.9.2</version>
  23.        </dependency>
  24.        <dependency>
  25.            <groupId>org.apache.hadoop</groupId>
  26.            <artifactId>hadoop-common</artifactId>
  27.            <version>2.9.2</version>
  28.        </dependency>
  29.        <dependency>
  30.            <groupId>org.apache.flink</groupId>
  31.            <artifactId>flink-core</artifactId>
  32.            <version>1.12.2</version>
  33.        </dependency>
  34.        <dependency>
  35.            <groupId>org.apache.flink</groupId>
  36.            <artifactId>flink-streaming-java_2.11</artifactId>
  37.            <version>1.12.2</version>
  38.        </dependency>
  39.        <!--        <dependency>-->
  40.        <!--            <groupId>org.apache.flink</groupId>-->
  41.        <!--            <artifactId>flink-jdbc_2.12</artifactId>-->
  42.        <!--            <version>1.10.3</version>-->
  43.        <!--        </dependency>-->
  44.        <dependency>
  45.            <groupId>org.apache.flink</groupId>
  46.            <artifactId>flink-connector-jdbc_2.11</artifactId>
  47.            <version>1.12.2</version>
  48.        </dependency>
  49.        <dependency>
  50.            <groupId>org.apache.flink</groupId>
  51.            <artifactId>flink-java</artifactId>
  52.            <version>1.12.2</version>
  53.        </dependency>
  54.        <dependency>
  55.            <groupId>org.apache.flink</groupId>
  56.            <artifactId>flink-clients_2.11</artifactId>
  57.            <version>1.12.2</version>
  58.        </dependency>
  59.        <dependency>
  60.            <groupId>org.apache.flink</groupId>
  61.            <artifactId>flink-table-api-java-bridge_2.11</artifactId>
  62.            <version>1.12.2</version>
  63.        </dependency>
  64.        <dependency>
  65.            <groupId>org.apache.flink</groupId>
  66.            <artifactId>flink-table-common</artifactId>
  67.            <version>1.12.2</version>
  68.        </dependency>
  69.        <dependency>
  70.            <groupId>org.apache.flink</groupId>
  71.            <artifactId>flink-table-planner_2.11</artifactId>
  72.            <version>1.12.2</version>
  73.        </dependency>
  74.        <dependency>
  75.            <groupId>org.apache.flink</groupId>
  76.            <artifactId>flink-table-planner-blink_2.11</artifactId>
  77.            <version>1.12.2</version>
  78.        </dependency>
  79.        <dependency>
  80.            <groupId>org.apache.flink</groupId>
  81.            <artifactId>flink-table-planner-blink_2.11</artifactId>
  82.            <version>1.12.2</version>
  83.            <type>test-jar</type>
  84.        </dependency>
  85.        <dependency>
  86.            <groupId>com.alibaba.ververica</groupId>
  87.            <artifactId>flink-connector-mysql-cdc</artifactId>
  88.            <version>1.2.0</version>
  89.        </dependency>
  90. <!--        <dependency>-->
  91. <!--            <groupId>org.apache.hudi</groupId>-->
  92. <!--            <artifactId>hudi-flink-client</artifactId>-->
  93. <!--            <version>0.9.0</version>-->
  94. <!--        </dependency>-->
  95. <!--        <dependency>-->
  96. <!--            <groupId>org.apache.hudi</groupId>-->
  97. <!--            <artifactId>hudi-common</artifactId>-->
  98. <!--            <version>0.9.0</version>-->
  99. <!--        </dependency>-->
  100. <!--        <dependency>-->
  101. <!--            <groupId>org.apache.hudi</groupId>-->
  102. <!--            <artifactId>hudi-hadoop-mr-bundle</artifactId>-->
  103. <!--            <version>0.9.0</version>-->
  104. <!--        </dependency>-->
  105.        <dependency>
  106.            <groupId>org.apache.hudi</groupId>
  107.            <artifactId>hudi-flink-bundle_2.11</artifactId>
  108.            <version>0.9.0</version>
  109.        </dependency>
  110.        <dependency>
  111.            <groupId>mysql</groupId>
  112.            <artifactId>mysql-connector-java</artifactId>
  113.            <version>5.1.49</version>
  114.        </dependency>
  115.    </dependencies>
  116. </project>
复制代码
我们通过构建查询insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mysql_binlog 将创建的mysql表,插入到hudi里。
  1. package name.lijiaqi;
  2. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  3. import org.apache.flink.table.api.EnvironmentSettings;
  4. import org.apache.flink.table.api.SqlDialect;
  5. import org.apache.flink.table.api.TableResult;
  6. import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
  7. public class MysqlToHudiExample {
  8.    public static void main(String[] args) throws Exception {
  9.        EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
  10.                .useBlinkPlanner()
  11.                .inStreamingMode()
  12.                .build();
  13.        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  14.        env.setParallelism(1);
  15.        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
  16.        tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);
  17.        // 数据源表
  18.        String sourceDDL =
  19.                "CREATE TABLE mysql_binlog (\n" +
  20.                        " id INT NOT NULL,\n" +
  21.                        " name STRING,\n" +
  22.                        " description STRING\n" +
  23.                        ") WITH (\n" +
  24.                        " 'connector' = 'jdbc',\n" +
  25.                        " 'url' = 'jdbc:mysql://127.0.0.1:3306/test', \n"+
  26.                        " 'driver' = 'com.mysql.jdbc.Driver', \n"+
  27.                        " 'username' = 'root',\n" +
  28.                        " 'password' = 'dafei1288', \n" +
  29.                        " 'table-name' = 'test_cdc'\n" +
  30.                        ")";
  31.        // 输出目标表
  32.        String sinkDDL =
  33.                "CREATE TABLE t2(\n" +
  34.                        "\tuuid VARCHAR(20),\n"+
  35.                        "\tid INT NOT NULL,\n" +
  36.                        "\tname VARCHAR(40),\n" +
  37.                        "\tdescription VARCHAR(40),\n" +
  38.                        "\tts TIMESTAMP(3)\n"+
  39. //                        "\t`partition` VARCHAR(20)\n" +
  40.                        ")\n" +
  41. //                        "PARTITIONED BY (`partition`)\n" +
  42.                        "WITH (\n" +
  43.                        "\t'connector' = 'hudi',\n" +
  44.                        "\t'path' = 'hdfs://172.19.28.4:9000/hudi_t4/',\n" +
  45.                        "\t'table.type' = 'MERGE_ON_READ'\n" +
  46.                        ")" ;
  47.        // 简单的聚合处理
  48.        String transformSQL =
  49.                "insert into t2 select replace(uuid(),'-',''),id,name,description,now()  from mysql_binlog";
  50.        tableEnv.executeSql(sourceDDL);
  51.        tableEnv.executeSql(sinkDDL);
  52.        TableResult result = tableEnv.executeSql(transformSQL);
  53.        result.print();
  54.        env.execute("mysql-to-hudi");
  55.    }
  56. }
复制代码
查询hudi
  1. package name.lijiaqi;
  2. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  3. import org.apache.flink.table.api.EnvironmentSettings;
  4. import org.apache.flink.table.api.SqlDialect;
  5. import org.apache.flink.table.api.TableResult;
  6. import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
  7. public class ReadHudi {
  8.    public static void main(String[] args) throws Exception {
  9.        EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
  10.                .useBlinkPlanner()
  11.                .inStreamingMode()
  12.                .build();
  13.        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  14.        env.setParallelism(1);
  15.        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
  16.        tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);
  17.        String sourceDDL =
  18.                "CREATE TABLE t2(\n" +
  19.                        "\tuuid VARCHAR(20),\n"+
  20.                        "\tid INT NOT NULL,\n" +
  21.                        "\tname VARCHAR(40),\n" +
  22.                        "\tdescription VARCHAR(40),\n" +
  23.                        "\tts TIMESTAMP(3)\n"+
  24. //                        "\t`partition` VARCHAR(20)\n" +
  25.                        ")\n" +
  26. //                        "PARTITIONED BY (`partition`)\n" +
  27.                        "WITH (\n" +
  28.                        "\t'connector' = 'hudi',\n" +
  29.                        "\t'path' = 'hdfs://172.19.28.4:9000/hudi_t4/',\n" +
  30.                        "\t'table.type' = 'MERGE_ON_READ'\n" +
  31.                        ")" ;
  32.        tableEnv.executeSql(sourceDDL);
  33.        TableResult result2 = tableEnv.executeSql("select * from t2");
  34.        result2.print();
  35.        env.execute("read_hudi");
  36.    }
  37. }
复制代码
展示结果


Flink CDC 2.0 on Hudi

添加依赖

添加如下依赖到$FLINK_HOME/lib下


  • hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar (修改 Master 分支的 Hudi Flink 版本为 1.13.2 然后构建)
  • hadoop-mapreduce-client-core-2.7.3.jar (办理 Hudi ClassNotFoundException)
  • flink-sql-connector-mysql-cdc-2.0.0.jar
  • flink-format-changelog-json-2.0.0.jar
  • flink-sql-connector-kafka_2.11-1.13.2.jar
留意,在探求jar的时候,cdc 2.0 更新过group id ,不再试 com.alibaba.ververica 而是改成了 com.ververica
flink sql cdc on hudi

创建mysql cdc表
  1. CREATE  TABLE mysql_users (
  2.     id BIGINT PRIMARY KEY NOT ENFORCED ,
  3.     name STRING,
  4.     birthday TIMESTAMP(3),
  5.     ts TIMESTAMP(3)
  6. ) WITH (
  7.     'connector' = 'mysql-cdc',
  8.     'hostname' = 'localhost',
  9.     'port' = '3306',
  10.     'username' = 'root',
  11.     'password' = 'dafei1288',
  12.     'server-time-zone' = 'Asia/Shanghai',
  13.     'database-name' = 'test',
  14.     'table-name' = 'users'  
  15. );
  16. # **写在最后**
  17. 为了这次面试,也收集了很多的面试题!
  18. 以下是部分面试题截图
  19. ![Java程序员秋招三面蚂蚁金服,我总结了所有面试题,也不过如此](https://img-blog.csdnimg.cn/img_convert/f7c2e06fcee43f5962041b28899a3032.webp?x-oss-process=image/format,png)
  20. Y NOT ENFORCED ,
  21.     name STRING,
  22.     birthday TIMESTAMP(3),
  23.     ts TIMESTAMP(3)
  24. ) WITH (
  25.     'connector' = 'mysql-cdc',
  26.     'hostname' = 'localhost',
  27.     'port' = '3306',
  28.     'username' = 'root',
  29.     'password' = 'dafei1288',
  30.     'server-time-zone' = 'Asia/Shanghai',
  31.     'database-name' = 'test',
  32.     'table-name' = 'users'  
  33. );
  34. # **写在最后**
  35. 为了这次面试,也收集了很多的面试题!
  36. 以下是部分面试题截图
  37. [外链图片转存中...(img-eEI9zNAD-1723525790091)]
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

农妇山泉一亩田

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表