IT评测·应用市场-qidao123.com

标题: Flink八股 [打印本页]

作者: 火影 时间: 2025-3-9 19:03
标题: Flink八股
flink八股：

两阶段提交、

状态管理、

状态后端、

反压、

水印、

check point、

双流join

checkpoint介绍一下

状态后端讲一下

flink exactly-once如何包管

flink的minibatch

广播变量

kafka的隔离级别

hive的内部表和外部表

flink exactly-once如何实现

hashmap尽量说说

1 Flink 简介

1. Flink 发展

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时间岑寂的发展着。
在国外一些社区，有很多人将大数据的计算引擎分成了 4 代，当然，也有很多人不会认同。我们先姑且这么以为和讨论。
起首第一代的计算引擎，无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生，它将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不费尽心机去拆分算法，乃至于不得不在上层应用实现多个 Job 的串联，以完成一个完备的算法，例如迭代计算。
由于如许的毛病，催生了支持 DAG 框架的产生。因此，支持 DAG 的框架被分别为第二代计算引擎。如 Tez 以及更上层的 Oozie。这里我们不去细究各种 DAG 实现之间的区别，不外对于其时的 Tez 和 Oozie 来说，大多还是批处置处罚的任务。
接下来就是以 Spark 为代表的第三代的计算引擎。第三代计算引擎的特点重要是 Job 内部的 DAG 支持（不跨越 Job），以及强调的实时计算。在这里，很多人也会以为第三代计算引擎也能够很好的运行批处置处罚的 Job。
随着第三代计算引擎的出现，促进了上层应用快速发展，例如各种迭代计算的性能以及对流计算和 SQL 等的支持。Flink 的诞生就被归在了第四代。这应该重要表现在 Flink 对流计算的支持，以及更一步的实时性上面。当然 Flink 也可以支持 Batch 的任务，以及 DAG 的运算。
总结：
第 1 代： Hadoop MapReduc 批处置处罚 Mapper、Reducer 2；
第 2 代： DAG 框架（Oozie 、Tez），Tez + MapReduce 批处置处罚 1 个 Tez = MR(1) + MR(2) + … + MR(n) 相比 MR 服从有所提升；
第 3 代： Spark 批处置处罚、流处置处罚、SQL 高层 API 支持自带 DAG 内存迭代计算、性能较之前大幅提；
第 4 代： Flink 批处置处罚、流处置处罚、SQL 高层 API 支持自带 DAG 流式计算性能更高、可靠性更高。
2. 什么是 Flink

Flink 起源于 Stratosphere 项目，Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会，参加这个孵化项目标初始成员是 Stratosphere 系统的焦点开辟人员，2014 年 12 月，Flink 一跃成为 Apache 软件基金会的顶级项目。
在德语中，Flink 一词表现快速和灵巧，项目采用一只松鼠的彩色图案作为 logo，这不仅是由于松鼠具有快速和灵巧的特点，还由于柏林的松鼠有一种迷人的红棕色，而 Flink 的松鼠 logo 拥有可爱的尾巴，尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应，也就是说，这是一只 Apache 风格的松鼠。

Flink 主页在其顶部展示了该项目标理念：“Apache Flink 是为分布式、高性能、随时可用以及正确的流处置处罚应用程序打造的开源流处置处罚框架”。
Apache Flink 是一个框架和分布式处置处罚引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速率和任意规模来执行计算。
3. Flink 流处置处罚特性

1.支持高吞吐、低延迟、高性能的流处置处罚
2.支持带有事件时间的窗口（Window）操作
3.支持有状态计算的 Exactly-once 语义
4.支持高度灵活的窗口（Window）操作，支持基于 time、count、session，以及 data-driven 的窗口操作
5.支持具有 Backpressure 功能的持续流模型
6.支持基于轻量级分布式快照（Snapshot）实现的容错
7.一个运行时同时支持 Batch on Streaming 处置处罚和 Streaming 处置处罚
8.Flink 在 JVM 内部实现了自己的内存管理
9.支持迭代计算
10.支持程序自动优化：制止特定情况下 Shuffle、排序等昂贵操作，中心结果有必要进行缓存
4. Flink 基石

Flink 之所以能这么盛行，离不开它最重要的四个基石：Checkpoint、State、Time、Window。
起首是 Checkpoint 机制，这是 Flink 最重要的一个特性。Flink 基于Chandy-Lamport算法实现了一个分布式的同等性的快照，从而提供了同等性的语义。Chandy-Lamport 算法实际上在 1985 年的时间已经被提出来，但并没有被很广泛的应用，而 Flink 则把这个算法发扬光大了。
Spark 最近在实现 Continue streaming，Continue streaming 的目标是为了低落它处置处罚的延时，其也需要提供这种同等性的语义，终极采用 Chandy-Lamport 这个算法，说明 Chandy-Lamport 算法在业界得到了一定的肯定。
提供了同等性的语义之后，Flink 为了让用户在编程时能够更轻松、更轻易地去管理状态，还提供了一套非常简朴明白的 State API，包括内里的有 ValueState、ListState、MapState，近期添加了 BroadcastState，使用 State API 能够自动享受到这种同等性的语义。
除此之外，Flink 还实现了 Watermark 的机制，能够支持基于事件的时间的处置处罚，大概说基于系统时间的处置处罚，能够容忍数据的延时、容忍数据的迟到、容忍乱序的数据。
别的流计算中一般在对流数据进行操作之前都会先进行开窗，即基于一个什么样的窗口上做这个计算。Flink 提供了开箱即用的各种窗口，比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自界说的窗口。
5. 批处置处罚与流处置处罚

批处置处罚的特点是有界、持久、大量，批处置处罚非常适合需要访问全套记载才能完成的计算工作，一般用于离线统计。流处置处罚的特点是无界、实时，流处置处罚方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。
在 Spark 生态体系中，对于批处置处罚和流处置处罚采用了不同的技术框架，批处置处罚由 SparkSQL 实现，流处置处罚由 Spark Streaming 实现，这也是大部门框架采用的策略，使用独立的处置处罚器实现批处置处罚和流处置处罚，而 Flink 可以同时实现批处置处罚和流处置处罚。
Flink 是如何同时实现批处置处罚与流处置处罚的呢？答案是，Flink 将批处置处罚（即处置处罚有限的静态数据）视作一种特殊的流处置处罚。
Flink 的焦点计算架构是下图中的 Flink Runtime 执行引擎，它是一个分布式系统，能够担当数据流程序并在一台或多台呆板上以容错方式执行。
Flink Runtime 执行引擎可以作为 YARN（Yet Another Resource Negotiator）的应用程序在集群上运行，也可以在 Mesos 集群上运行，还可以在单机上运行（这对于调试 Flink 应用程序来说非常有效）。

上图为 Flink 技术栈的焦点组成部门，值得一提的是，Flink 分别提供了面向流式处置处罚的接口（DataStream API）和面向批处置处罚的接口（DataSet API）。因此，Flink 既可以完成流处置处罚，也可以完成批处置处罚。Flink 支持的拓展库涉及呆板学习（FlinkML）、复杂事件处置处罚（CEP）、以及图计算（Gelly），另有分别针对流处置处罚和批处置处罚的 Table API。
能被 Flink Runtime 执行引擎担当的程序很强大，但是如许的程序有着冗长的代码，编写起来也很费力，基于这个原因，Flink 提供了封装在 Runtime 执行引擎之上的 API，以帮助用户方便地天生流式计算程序。Flink 提供了用于流处置处罚的 DataStream API 和用于批处置处罚的 DataSet API。值得留意的是，尽管 Flink Runtime 执行引擎是基于流处置处罚的，但是 DataSet API 先于 DataStream API 被开辟出来，这是由于工业界对无限流处置处罚的需求在 Flink 诞生之初并不大。
DataStream API 可以流畅地分析无限数据流，而且可以用 Java 大概 Scala 等来实现。开辟人员需要基于一个叫 DataStream 的数据布局来开辟，这个数据布局用于表现永不停止的分布式数据流。
Flink 的分布式特点体现在它能够在成百上千台呆板上运行，它将大型的计算任务分成很多小的部门，每个呆板执行一部门。Flink 能够自动地确保发生呆板故障大概其他错误时计算能够持续进行，大概在修复 bug 或进行版本升级后有计划地再执行一次。这种本领使得开辟人员不需要担心运行失败。Flink 本质上使用容错性数据流，这使得开辟人员可以分析持续天生且永久不结束的数据（即流处置处罚）。
2 Flink 部署及启动

Flink 支持多种安装模式:
1.local（本地）——单机模式，一般不使用；
2.standalone——独立模式，Flink 自带集群，开辟测试环境使用；
3.yarn——计算资源同一由 Hadoop YARN 管理，生产环境使用。
Flink 集群的安装不属于本文档的范畴，如安装 Flink，可自行搜刮资料进行安装。
本节重点在 Flink 的 Yarn 部署模式。
在一个企业中，为了最大化的利用集群资源，一般都会在一个集群中同时运行多种范例的 Workload，可以使用 YARN 来管理所有计算资源。
1. Flink 在 Yarn 上的部署架构

从图中可以看出，Yarn 的客户端需要获取 hadoop 的配置信息，连接 Yarn 的 ResourceManager。所以要设置 YARN_CONF_DIR 大概 HADOOP_CONF_DIR 大概 HADOOP_CONF_PATH，只要设置了其中一个环境变量，就会被读取。假如读取上述的变量失败了，那么将会选择 hadoop_home 的环境变量，会尝试加载$HADOOP_HOME/etc/hadoop 的配置文件。
1.当启动一个 Flink Yarn 会话时，客户端起首会检查本次请求的资源（存储、计算）是否足够。资源足够将会上传包罗 HDFS 及 Flink 的配置信息和 Flink 的 jar 包到 HDFS；
2.客户端向 RM 发起请求；
3.RM 向 NM 发请求指令，创建 container，并从 HDFS 中下载 jar 以及配置文件；
4.启动 ApplicationMaster 和 jobmanager,将 jobmanager 的地址信息写到配置文件中，再发到 hdfs 上；
5.同时，AM 向 RM 发送心跳注册自己，申请资源（cpu、内存）；
6.创建 TaskManager 容器，从 HDFS 中下载 jar 包及配置文件并启动；
7.各 task 任务通过 jobmanager 汇报自己的状态和进度，AM 和 jobmanager 在一个容器上，AM 就能掌握各任务的运行状态，从而可以在任务失败时，重新启动任务；
8.任务完成后，AM 向 RM 注销并关闭自己；
2. 启动集群

1.修改 hadoop 的配置参数： vim etc/hadoop/yarn-site.xml
添加：

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

复制代码

修改 Hadoop 的 yarn-site.xml，添加该配置表现内存高出分配值，是否将任务杀掉。
默以为 true。运行 Flink 程序，很轻易内存超标，这个时间 yarn 会自动杀掉 job。
2.修改全局变量 /etc/profile：
添加：export HADOOP_CONF_DIR=/export/servers/hadoop/etc/Hadoop
YARN_CONF_DIR 大概 HADOOP_CONF_DIR 必须将环境变量设置为读取 YARN 和 HDFS 配置
2.启动 HDFS、zookeeper（假如是外置 zookeeper）、YARN 集群；
3.使用 yarn-session 的模式提交作业。
Yarn Session 模式提交作业有两种方式：yarn-session 和 yarn-cluster
3. 模式一: yarn-session

特点：
1.使用 Flink 中的 yarn-session（yarn 客户端），会启动两个必要服务 JobManager 和 TaskManagers；
2.客户端通过 yarn-session 提交作业；
3.yarn-session 会不停启动，不停地吸收客户端提交的任务；
4.假如拥有有大量的小作业，适合使用这种方式。

在 flink 目次启动 yarn-session：
bin/yarn-session.sh -n 2 -tm 800 -jm 800 -s 1 -d
-n 表现申请 2 个容器
-s 表现每个容器启动多少个 slot 离模式，表现以后台程
-tm 表现每个 TaskManager 申请 800M 内存
-d 分序方式运行
使用 flink 提交任务：
bin/flink run examples/batch/WordCount.jar
假如程序运行完了，可以使用 yarn application -kill application_id 杀掉任务：
yarn application -kill application_1554377097889_0002
bin/yarn-session.sh -n 2 -tm 800 -s 1 -d 意思是:
同时向 Yarn 申请 3 个 container（即便只申请了两个，由于 ApplicationMaster 和 Job Manager 有一个额外的容器。一旦将 Flink 部署到 YARN 群会合，它就会显示 Job Manager 的连接详细信息），其中 2 个 Container 启动 TaskManager（-n 2），每个 TaskManager 拥有两个 Task Slot（-s 1），而且向每个 TaskManager 的 Container 申请 800M 的内存，以及一个 ApplicationMaster（Job Manager）。
4. 模式二: yarn-cluster

特点：
1.直接提交任务给 YARN；
2.大作业，适合使用这种方式；
3.会自动关闭 session。

使用 flink 直接提交任务：
bin/flink run -m yarn-cluster -yn 2 -yjm 800 -ytm 800 /export/servers/flink-1.6.0/examples/batch/WordCount.jar
-yn 表现 TaskManager 的个数
留意：
1.在创建集群的时间，集群的配置参数就写好了，但是往往由于业务需要，要更改一些配置参数，这个时间可以不必由于一个实例的提交而修改 conf/flink-conf.yaml;
可以通过：-D Dynamic properties 来覆盖原有的配置信息：比如：
-Dfs.overwrite-files=true -Dtaskmanager.network.numberOfBuffers=16368
2.假如使用的是 flink on yarn 方式，想切换回 standalone 模式的话，需要删除：/tmp/.yarn-properties-root，由于默认查找当前 yarn 集群中已有的 yarn-session 信息中的 jobmanager。
3 Flink 运行架构

1. Flink 程序布局

Flink 程序的基本构建块是流和转换（请留意，Flink 的 DataSet API 中使用的 DataSet 也是内部流）。从概念上讲，流是（可能永无止境的）数据记载流，而转换是将一个或多个流作为一个或多个流的操作。输入，并产生一个或多个输出流。

Flink 应用程序布局就是如上图所示：
Source: 数据源，Flink 在流处置处罚和批处置处罚上的 source 大概有 4 类：基于本地聚集的 source、基于文件的 source、基于网络套接字的 source、自界说的 source。自界说的 source 常见的有 Apache kafka、RabbitMQ 等，当然你也可以界说自己的 source。
Transformation：数据转换的各种操作，有 Map / FlatMap / Filter / KeyBy / Reduce / Fold / Aggregations / Window / WindowAll / Union / Window join / Split / Select等，操作很多，可以将数据转换计算成你想要的数据。
Sink：吸收器，Flink 将转换计算后的数据发送的所在，你可能需要存储下来，Flink 常见的 Sink 大概有如下几类：写入文件、打印出来、写入 socket 、自界说的 sink 。自界说的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem 等，同理你也可以界说自己的 sink。
2. Flink 并行数据流

Flink 程序在执行的时间，会被映射成一个 Streaming Dataflow，一个 Streaming Dataflow 是由一组 Stream 和 Transformation Operator 组成的。在启动时从一个或多个 Source Operator 开始，结束于一个或多个 Sink Operator。
Flink 程序本质上是并行的和分布式的，在执行过程中，一个流(stream)包罗一个或多个流分区，而每一个 operator 包罗一个或多个 operator 子任务。操作子任务间相互独立，在不同的线程中执行，乃至是在不同的呆板或不同的容器上。operator 子任务的数目是这一特定 operator 的并行度。雷同程序中的不同 operator 有不同级别的并行度。

一个 Stream 可以被分成多个 Stream 的分区，也就是 Stream Partition。一个 Operator 也可以被分为多个 Operator Subtask。如上图中，Source 被分成 Source1 和 Source2，它们分别为 Source 的 Operator Subtask。每一个 Operator Subtask 都是在不同的线程当中独立执行的。一个 Operator 的并行度，就即是 Operator Subtask 的个数。上图 Source 的并行度为 2。而一个 Stream 的并行度就即是它天生的 Operator 的并行度。
数据在两个 operator 之间传递的时间有两种模式：
One to One 模式：两个 operator 用此模式传递的时间，会保持数据的分区数和数据的排序；如上图中的 Source1 到 Map1，它就生存的 Source 的分区特性，以及分区元素处置处罚的有序性。
Redistributing （重新分配）模式：这种模式会改变数据的分区数；每个一个 operator subtask 会根据选择 transformation 把数据发送到不同的目标 subtasks,比如 keyBy()会通过 hashcode 重新分区,broadcast()和 rebalance()方法会随机重新分区；
3. Task 和 Operator chain

Flink的所有操作都称之为Operator，客户端在提交任务的时间会对Operator进行优化操作，能进行合并的Operator会被合并为一个Operator，合并后的Operator称为Operator chain，实际上就是一个执行链，每个执行链会在TaskManager上一个独立的线程中执行。

4. 任务调度与执行

1.当Flink执行executor会自动根据程序代码天生DAG数据流图；
2.ActorSystem创建Actor将数据流图发送给JobManager中的Actor；
3.JobManager会不停吸收TaskManager的心跳消息，从而可以获取到有效的TaskManager；
4.JobManager通过调度器在TaskManager中调度执行Task（在Flink中，最小的调度单元就是task，对应就是一个线程）；
5.在程序运行过程中，task与task之间是可以进行数据传输的。
Job Client：
1.重要职责是提交任务, 提交后可以结束进程, 也可以等待结果返回；
2.Job Client 不是 Flink 程序执行的内部部门，但它是任务执行的出发点；
3.Job Client 负责担当用户的程序代码，然后创建数据流，将数据流提交给 Job Manager 以便进一步执行。执行完成后，Job Client 将结果返回给用户。
JobManager：
1.重要职责是调度工作并协调任务做检查点；
2.集群中至少要有一个 master，master 负责调度 task，协调checkpoints 和容错；
3.高可用设置的话可以有多个 master，但要包管一个是 leader, 其他是standby；
4.Job Manager 包罗 Actor System、Scheduler、CheckPoint三个重要的组件；
5.JobManager从客户端吸收到任务以后, 起首天生优化过的执行计划, 再调度到TaskManager中执行。
TaskManager：
1.重要职责是从JobManager处吸收任务, 并部署和启动任务, 吸收上游的数据并处置处罚；
2.Task Manager 是在 JVM 中的一个或多个线程中执行任务的工作节点；
3.TaskManager在创建之初就设置好了Slot, 每个Slot可以执行一个任务。
5. 任务槽和槽共享

每个TaskManager是一个JVM的进程, 可以在不同的线程中执行一个或多个子任务。为了控制一个worker能吸收多少个task。worker通过task slot来进行控制（一个worker至少有一个task slot）。

任务槽
每个task slot表现TaskManager拥有资源的一个固定大小的子集。
flink将进程的内存进行了分别到多个slot中。
图中有2个TaskManager，每个TaskManager有3个slot的，每个slot占据1/3的内存。
内存被分别到不同的slot之后可以得到如下好处:
TaskManager最多能同时并发执行的任务是可以控制的，那就是3个，由于不能高出slot的数目。
slot有独占的内存空间，如许在一个TaskManager中可以运行多个不同的作业，作业之间不受影响。
槽共享
默认情况下，Flink允许子任务共享插槽，即使它们是不同任务的子任务，只要它们来自同一个作业。结果是一个槽可以生存作业的整个管道。允许插槽共享有两个重要好处：
只需计算Job中最高并行度（parallelism）的task slot,只要这个满足，其他的job也都能满足。
资源分配更加公平，假如有比较空闲的slot可以将更多的任务分配给它。图中若没有任务槽共享，负载不高的Source/Map等subtask将会占据很多资源，而负载较高的窗口subtask则会缺乏资源。
有了任务槽共享，可以将基本并行度（base parallelism）从2提升到6.进步了分槽资源的利用率。同时它还可以保障TaskManager给subtask的分配的slot方案更加公平。

5 Flink 算子大全-DataStream API

DataStream API是Flink的焦点层API。一个Flink程序，实在就是对DataStream的各种转换。具体来说，代码基本上都由以下几部门构成：
A执行环境（Execution Environment）

Flink程序可以在各种上下文环境中运行：我们可以在本地JVM中执行程序，也可以提交到长途集群上运行。
不同的环境，代码的提交运行的过程会有所不同。这就要求我们在提交作业执行计算时，起首必须获取当前Flink的运行环境，从而建立起与Flink框架之间的联系。

1创建执行环境

我们要获取的执行环境，是StreamExecutionEnvironment类的对象，这是所有Flink程序的基础。在代码中创建执行环境的方式，就是调用这个类的静态方法，具体有以下三种。
1.1getExecutionEnvironment

最简朴的方式，就是直接调用getExecutionEnvironment方法。它会根据当前运行的上下文直接得到正确的结果：假如程序是独立运行的，就返回一个本地执行环境；假如是创建了jar包，然后从下令行调用它并提交到集群执行，那么就返回集群的执行环境。也就是说，这个方法会根据当前运行的方式，自行决定该返回什么样的运行环境。这种方式，用起来简朴高效，是最常用的一种创建执行环境的方式。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

复制代码

1.2createLocalEnvironment

这个方法返回一个本地执行环境。可以在调用时传入一个参数，指定默认的并行度；假如不传入，则默认并行度就是本地的CPU焦点数。

StreamExecutionEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment();

复制代码

1.3createRemoteEnvironment

这个方法返回集群执行环境。需要在调用时指定JobManager的主机名和端口号，并指定要在集群中运行的Jar包。在获取到程序执行环境后，我们还可以对执行环境进行灵活的设置。比如可以全局设置程序的并行度、禁用算子链，还可以界说程序的时间语义、配置容错机制。

StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment
.createRemoteEnvironment(
"host", // JobManager主机名
1234, // JobManager进程端口号
"path/to/jarFile.jar" // 提交给JobManager的JAR包
);

复制代码

2执行模式（Execution Mode）

从Flink 1.12开始，官方保举的做法是直接使用DataStream API，在提交任务时通过将执行模式设为BATCH来进行批处置处罚。不建议使用DataSet API。

// 流处理环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

复制代码

DataStream API执行模式包括：流执行模式、批执行模式和自动模式。
流执行模式（Streaming）
这是DataStream API最经典的模式，一般用于需要持续实时处置处罚的无界数据流。默认情况下，程序使用的就是Streaming执行模式。
批执行模式（Batch）
专门用于批处置处罚的执行模式。
自动模式（AutoMatic）
在这种模式下，将由程序根据输入数据源是否有界，来自动选择执行模式。
批执行模式的使用。重要有两种方式：
（1）通过下令行配置
在提交作业时，增长execution.runtime-mode参数，指定值为BATCH。

bin/flink run -Dexecution.runtime-mode=BATCH ...

复制代码

（2）通过代码配置
在代码中，直接基于执行环境调用setRuntimeMode方法，传入BATCH模式。
实际应用中一般不会在代码中配置，而是使用下令行，如许更加灵活。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setRuntimeMode(RuntimeExecutionMode.BATCH);

复制代码

3触发程序执行

需要留意的是，写完输出（sink）操作并不代表程序已经结束。由于当main()方法被调用时，实在只是界说了作业的每个执行操作，然后添加到数据流图中；这时并没有真正处置处罚数据——由于数据可能还没来。Flink是由事件驱动的，只有比及数据到来，才会触发真正的计算，这也被称为“延迟执行”或“懒执行”。
所以我们需要显式地调用执行环境的execute()方法，来触发程序执行。execute()方法将不停等待作业完成，然后返回一个执行结果（JobExecutionResult）。

env.execute();

复制代码

Flink和Spark雷同，也是一种一站式处置处罚的框架；既可以进行批处置处罚（DataSet），也可以进行实时处置处罚（DataStream）。
所以下面将Flink的算子分为两大类：一类是DataSet，一类是DataStream。
B源算子（Source）

Flink可以从各种泉源获取数据，然后构建DataStream进行转换处置处罚。一般将数据的输入泉源称为数据源（data source），而读取数据的算子就是源算子（source operator）。所以，source就是我们整个处置处罚程序的输入端。

在Flink1.12从前，旧的添加source的方式，是调用执行环境的addSource()方法：

DataStream<String> stream = env.addSource(...);

复制代码

方法传入的参数是一个“源函数”（source function），需要实现SourceFunction接口。
从Flink1.12开始，重要使用流批同一的新Source架构：

DataStreamSource<String> stream = env.fromSource(…)

复制代码

Flink直接提供了很多预实现的接口，别的另有很多外部连接工具也帮我们实现了对应的Source，通常情况下足以应对我们的实际需求。
0准备工作

为了方便练习，这里使用WaterSensor作为数据模型。
字段名数据范例说明
id String 水位传感器范例
ts Long 传感器记载时间戳
vc Integer 水位记载
具体代码如下：

public class WaterSensor {
public String id;
public Long ts;
public Integer vc;
public WaterSensor() {
}
public WaterSensor(String id, Long ts, Integer vc) {
this.id = id;
this.ts = ts;
this.vc = vc;
}
public String getId() {
return id;
}
public void setId(String id) {
this.id = id;
}
public Long getTs() {
return ts;
}
public void setTs(Long ts) {
this.ts = ts;
}
public Integer getVc() {
return vc;
}
public void setVc(Integer vc) {
this.vc = vc;
}
@Override
public String toString() {
return "WaterSensor{" +
"id='" + id + '\'' +
", ts=" + ts +
", vc=" + vc +
'}';
}
@Override
public boolean equals(Object o) {
if (this == o) {
return true;
}
if (o == null || getClass() != o.getClass()) {
return false;
}
WaterSensor that = (WaterSensor) o;
return Objects.equals(id, that.id) &&
Objects.equals(ts, that.ts) &&
Objects.equals(vc, that.vc);
}
@Override
public int hashCode() {
return Objects.hash(id, ts, vc);
}
}

复制代码

这里需要留意，我们界说的WaterSensor，有如许几个特点：
类是公有（public）的
有一个无参的构造方法
所有属性都是公有（public）的
所有属性的范例都是可以序列化的
Flink会把如许的类作为一种特殊的POJO（Plain Ordinary Java Object简朴的Java对象，实际就是普通JavaBeans）数据范例来对待，方便数据的剖析和序列化。别的我们在类中还重写了toString方法，重要是为了测试输出显示更清晰。
我们这里自界说的POJO类会在背面的代码中频仍使用，所以在背面的代码中碰到，把这里的POJO类导入就好了。
1从聚会合读取数据

最简朴的读取数据的方式，就是在代码中直接创建一个Java聚集，然后调用执行环境的fromCollection方法进行读取。这相当于将数据临时存储到内存中，形成特殊的数据布局后，作为数据源使用，一般用于测试。

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
List<Integer> data = Arrays.asList(1, 22, 3); DataStreamSource<Integer> ds = env.fromCollection(data); stream.print(); env.execute();
}

复制代码

2从文件读取数据

真正的实际应用中，自然不会直接将数据写在代码中。通常情况下，我们会从存储介质中获取数据，一个比较常见的方式就是读取日志文件。这也是批处置处罚中最常见的读取方式。读取文件，需要添加文件连接器依赖:

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-files</artifactId>
<version>${flink.version}</version>
</dependency>

复制代码

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
FileSource<String> fileSource = FileSource.forRecordStreamFormat(new TextLineInputFormat(), new Path("input/word.txt")).build(); env.fromSource(fileSource,WatermarkStrategy.noWatermarks(),"file").print(); env.execute();
}

复制代码

说明：
参数可以是目次，也可以是文件；还可以从HDFS目次下读取，使用路径hdfs://…；
路径可以是相对路径，也可以是绝对路径；
相对路径是从系统属性user.dir获取路径：idea下是project的根目次，standalone模式下是集群节点根目次；
3从Socket读取数据

不论从聚集还是文件，我们读取的实在都是有界数据。在流处置处罚的场景中，数据往往是无界的。
我们之前用到的读取socket文本流，就是流处置处罚场景。但是这种方式由于吞吐量小、稳定性较差，一般也是用于测试。

DataStream<String> stream = env.socketTextStream("localhost", 7777);

复制代码

4从Kafka读取数据

Flink官方提供了连接工具flink-connector-kafka，直接帮我们实现了一个消耗者FlinkKafkaConsumer，它就是用来读取Kafka数据的SourceFunction。
所以想要以Kafka作为数据源获取数据，我们只需要引入Kafka连接器的依赖。Flink官方提供的是一个通用的Kafka连接器，它会自动跟踪最新版本的Kafka客户端。目前最新版本只支持0.10.0版本以上的Kafka。这里我们需要导入的依赖如下。

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka</artifactId>
<version>${flink.version}</version>
</dependency>

复制代码

public class SourceKafka { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
KafkaSource<String> kafkaSource = KafkaSource.<String>builder() .setBootstrapServers("hadoop102:9092") .setTopics("topic_1") .setGroupId("atguigu") .setStartingOffsets(OffsetsInitializer.latest()) .setValueOnlyDeserializer(new SimpleStringSchema()) .build(); DataStreamSource<String> stream = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(), "kafka-source"); stream.print("Kafka"); env.execute();
}}

复制代码

5从数据天生器读取数据

Flink从1.11开始提供了一个内置的DataGen 连接器，重要是用于天生一些随机数，用于在没有数据源的时间，进行流任务的测试以及性能测试等。1.17提供了新的Source写法，需要导入依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-datagen</artifactId>
<version>${flink.version}</version>
</dependency>

复制代码

public class DataGeneratorDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); DataGeneratorSource<String> dataGeneratorSource = new DataGeneratorSource<>( new GeneratorFunction<Long, String>() { @Override public String map(Long value) throws Exception { return "Number:"+value; } }, Long.MAX_VALUE, RateLimiterStrategy.perSecond(10), Types.STRING ); env.fromSource(dataGeneratorSource, WatermarkStrategy.noWatermarks(), "datagenerator").print(); env.execute();
}}

复制代码

6Flink支持的数据范例

1）Flink的范例系统

Flink使用“范例信息”（TypeInformation）来同一表现数据范例。TypeInformation类是Flink中所有范例描述符的基类。它涵盖了范例的一些基本属性，并为每个数据范例天生特定的序列化器、反序列化器和比较器。
2）Flink支持的数据范例

对于常见的Java和Scala数据范例，Flink都是支持的。Flink在内部，Flink对支持不同的范例进行了分别，这些范例可以在Types工具类中找到：
（1）基本范例
所有Java基本范例及其包装类，再加上Void、String、Date、BigDecimal和BigInteger。
（2）数组范例
包括基本范例数组（PRIMITIVE_ARRAY）和对象数组（OBJECT_ARRAY）。
（3）复合数据范例
-Java元组范例（TUPLE）：这是Flink内置的元组范例，是Java API的一部门。最多25个字段，也就是从Tuple0~Tuple25，不支持空字段。
-Scala 样例类及Scala元组：不支持空字段。
-行范例（ROW）：可以以为是具有任意个字段的元组，并支持空字段。
-POJO：Flink自界说的雷同于Java bean模式的类。
（4）辅助范例
Option、Either、List、Map等。
（5）泛型范例（GENERIC）
Flink支持所有的Java类和Scala类。不外假如没有按照上面POJO范例的要求来界说，就会被Flink当作泛型类来处置处罚。Flink会把泛型范例当作黑盒，无法获取它们内部的属性；它们也不是由Flink自己序列化的，而是由Kryo序列化的。
在这些范例中，元组范例和POJO范例最为灵活，由于它们支持创建复杂范例。而相比之下，POJO还支持在键（key）的界说中直接使用字段名，这会让我们的代码可读性大大增长。所以，在项目实践中，往往会将流处置处罚程序中的元素范例定为Flink的POJO范例。
Flink对POJO范例的要求如下：
-类是公有（public）的
-有一个无参的构造方法
-所有属性都是公有（public）的
-所有属性的范例都是可以序列化的
3）范例提示（Type Hints）

Flink还具有一个范例提取系统，可以分析函数的输入和返回范例，自动获取范例信息，从而得到对应的序列化器和反序列化器。但是，由于Java中泛型擦除的存在，在某些特殊情况下（比如Lambda表达式中），自动提取的信息是不够精细的——只告诉Flink当前的元素由“船头、船身、船尾”构成，根本无法重修出“大船”的模样；这时就需要显式地提供范例信息，才能使应用程序正常工作或进步其性能。
为了办理这类问题，Java API提供了专门的“范例提示”（type hints）。
回想一下之前的word count流处置处罚程序，我们在将String范例的每个词转换成（word， count）二元组后，就明白地用returns指定了返回的范例。由于对于map里传入的Lambda表达式，系统只能推断出返回的是Tuple2范例，而无法得到Tuple2<String, Long>。只有显式地告诉系统当前的返回范例，才能正确地剖析出完备数据。

.map(word -> Tuple2.of(word, 1L))
.returns(Types.TUPLE(Types.STRING, Types.LONG));

复制代码

Flink还专门提供了TypeHint类，它可以捕获泛型的范例信息，而且不停记载下来，为运行时提供足够的信息。我们同样可以通过.returns()方法，明白地指定转换之后的DataStream里元素的范例。

returns(new TypeHint<Tuple2<Integer, SomeType>>(){})

复制代码

C转换算子

1基本转换算子（map/ filter/ flatMap）

数据源读入数据之后，我们就可以使用各种转换算子，将一个或多个DataStream转换为新的DataStream。

1.1映射（map）

map是大家非常认识的大数据操作算子，重要用于将数据流中的数据进行转换，形成新的数据流。简朴来说，就是一个“一一映射”，消耗一个元素就产出一个元素。我们只需要基于DataStream调用map()方法就可以进行转换处置处罚。方法需要传入的参数是接口MapFunction的实现；返回值范例还是DataStream，不外泛型（流中的元素范例）可能改变。
下面的代码用不同的方式，实现了提取WaterSensor中的id字段的功能。

public class TransMap { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_2", 2, 2) ); // 方式一：传入匿名类，实现MapFunction stream.map(new MapFunction<WaterSensor, String>() { @Override public String map(WaterSensor e) throws Exception { return e.id; } }).print(); // 方式二：传入MapFunction的实现类 // stream.map(new UserMap()).print(); env.execute();
} public static class UserMap implements MapFunction<WaterSensor, String> { @Override public String map(WaterSensor e) throws Exception { return e.id; } }}

复制代码

上面代码中，MapFunction实现类的泛型范例，与输入数据范例和输出数据的范例有关。在实现MapFunction接口的时间，需要指定两个泛型，分别是输入事件和输出事件的范例，还需要重写一个map()方法，界说从一个输入事件转换为另一个输出事件的具体逻辑。
1.2过滤（filter）

filter转换操作，顾名思义是对数据流执行一个过滤，通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为true则元素正常输出，若为false则元素被过滤掉。进行filter转换之后的新数据流的数据范例与原数据流是雷同的。filter转换需要传入的参数需要实现FilterFunction接口，而FilterFunction内要实现filter()方法，就相当于一个返回布尔范例的条件表达式。

案例需求：下面的代码会将数据流中传感器id为sensor_1的数据过滤出来。

public class TransFilter { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); // 方式一：传入匿名类实现FilterFunction stream.filter(new FilterFunction<WaterSensor>() { @Override public boolean filter(WaterSensor e) throws Exception { return e.id.equals("sensor_1"); } }).print(); // 方式二：传入FilterFunction实现类 // stream.filter(new UserFilter()).print(); env.execute();
} public static class UserFilter implements FilterFunction<WaterSensor> { @Override public boolean filter(WaterSensor e) throws Exception { return e.id.equals("sensor_1"); } }}

复制代码

1.3扁平映射（flatMap）

flatMap操作又称为扁平映射，重要是将数据流中的整体（一般是聚集范例）拆分成一个一个的个体使用。消耗一个元素，可以产生0到多个元素。flatMap可以以为是“扁平化”（flatten）和“映射”（map）两步操作的联合，也就是先按照某种规则对数据进行打散拆分，再对拆分后的元素做转换处置处罚。同map一样，flatMap也可以使用Lambda表达式大概FlatMapFunction接口实现类的方式来进行传参，返回值范例取决于所传参数的具体逻辑，可以与原数据流雷同，也可以不同。

案例需求：假如输入的数据是sensor_1，只打印vc；假如输入的数据是sensor_2，既打印ts又打印vc。

public class TransFlatmap { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); stream.flatMap(new MyFlatMap()).print(); env.execute();
} public static class MyFlatMap implements FlatMapFunction<WaterSensor, String> { @Override public void flatMap(WaterSensor value, Collector<String> out) throws Exception { if (value.id.equals("sensor_1")) { out.collect(String.valueOf(value.vc)); } else if (value.id.equals("sensor_2")) { out.collect(String.valueOf(value.ts)); out.collect(String.valueOf(value.vc)); } } }}

复制代码

2聚合算子（Aggregation）

计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），雷同于MapReduce中的reduce操作。
2.1按键分区（keyBy）

对于Flink而言，DataStream是没有直接进行聚合的API的。由于我们对海量数据做聚合肯定要进行分区并行处置处罚，如许才能进步服从。所以在Flink中，要做聚合，需要先进行分区；这个操作就是通过keyBy来完成的。
keyBy是聚合前必须要用到的一个算子。keyBy通过指定键（key），可以将一条流从逻辑上分别成不同的分区（partitions）。这里所说的分区，实在就是并行处置处罚的子任务。
基于不同的key，流中的数据将被分配到不同的分区中去；如许一来，所有具有雷同的key的数据，都将被发往同一个分区。
在内部，是通过计算key的哈希值（hash code），对分区数进行取模运算来实现的。所以这里key假如是POJO的话，必须要重写hashCode()方法。
keyBy()方法需要传入一个参数，这个参数指定了一个或一组key。有很多不同的方法来指定key：比如对于Tuple数据范例，可以指定字段的位置大概多个位置的组合；对于POJO范例，可以指定字段的名称（String）；别的，还可以传入Lambda表达式大概实现一个键选择器（KeySelector），用于说明从数据中提取key的逻辑。

我们可以以id作为key做一个分区操作，代码实现如下：

public class TransKeyBy { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); // 方式一：使用Lambda表达式 KeyedStream<WaterSensor, String> keyedStream = stream.keyBy(e -> e.id); // 方式二：使用匿名类实现KeySelector KeyedStream<WaterSensor, String> keyedStream1 = stream.keyBy(new KeySelector<WaterSensor, String>() { @Override public String getKey(WaterSensor e) throws Exception { return e.id; } }); env.execute();
}}

复制代码

需要留意的是，keyBy得到的结果将不再是DataStream，而是会将DataStream转换为KeyedStream。KeyedStream可以以为是“分区流”大概“键控流”，它是对DataStream按照key的一个逻辑分区，所以泛型有两个范例：除去当前流中的元素范例外，还需要指定key的范例。
KeyedStream也继续自DataStream，所以基于它的操作也都归属于DataStream API。但它跟之前的转换操作得到的SingleOutputStreamOperator不同，只是一个流的分区操作，并不是一个转换算子。KeyedStream是一个非常重要的数据布局，只有基于它才可以做后续的聚合操作（比如sum，reduce）。
2.2简朴聚合（sum/min/max/minBy/maxBy）

有了按键分区的数据流KeyedStream，我们就可以基于它进行聚合操作了。Flink为我们内置实现了一些最基本、最简朴的聚合API，重要有以下几种：
sum()：在输入流上，对指定的字段做叠加求和的操作。
min()：在输入流上，对指定的字段求最小值。
max()：在输入流上，对指定的字段求最大值。
minBy()：与min()雷同，在输入流上针对指定字段求最小值。不同的是，min()只计算指定字段的最小值，其他字段会生存最初第一个数据的值；而minBy()则会返回包罗字段最小值的整条数据。
maxBy()：与max()雷同，在输入流上针对指定字段求最大值。两者区别与min()/minBy()完全同等。
简朴聚合算子使用非常方便，语义也非常明白。这些聚合方法调用时，也需要传入参数；但并不像基本转换算子那样需要实现自界说函数，只要说明聚合指定的字段就可以了。指定字段的方式有两种：指定位置，和指定名称。
对于元组范例的数据，可以使用这两种方式来指定字段。需要留意的是，元组中字段的名称，是以f0、f1、f2、…来定名的。
假如数据流的范例是POJO类，那么就只能通过字段名称来指定，不能通过位置来指定了。

public class TransAggregation { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); stream.keyBy(e -> e.id).max("vc"); // 指定字段名称 env.execute();
}}

复制代码

简朴聚合算子返回的，同样是一个SingleOutputStreamOperator，也就是从KeyedStream又转换成了常规的DataStream。所以可以如许理解：keyBy和聚合是成对出现的，先分区、后聚合，得到的依然是一个DataStream。而且颠末简朴聚合之后的数据流，元素的数据范例保持稳定。
一个聚合算子，会为每一个key生存一个聚合的值，在Flink中我们把它叫作“状态”（state）。所以每当有一个新的数据输入，算子就会更新生存的聚合结果，并发送一个带有更新后聚合值的事件到下游算子。对于无界流来说，这些状态是永久不会被扫除的，所以我们使用聚合算子，应该只用在含有有限个key的数据流上。
2.3归约聚合（reduce）

reduce可以对已有的数据进行归约处置处罚，把每一个新输入的数据和当前已经归约出来的值，再做一个聚合计算。
reduce操作也会将KeyedStream转换为DataStream。它不会改变流的元素数据范例，所以输出范例和输入范例是一样的。
调用KeyedStream的reduce方法时，需要传入一个参数，实现ReduceFunction接口。接口在源码中的界说如下：

public interface ReduceFunction<T> extends Function, Serializable {
T reduce(T value1, T value2) throws Exception;
}

复制代码

ReduceFunction接口里需要实现reduce()方法，这个方法吸收两个输入事件，颠末转换处置处罚之后输出一个雷同范例的事件。在流处置处罚的底层实现过程中，实际上是将中心“合并的结果”作为任务的一个状态生存起来的；之后每来一个新的数据，就和之前的聚合状态进一步做归约。
我们可以单独界说一个函数类实现ReduceFunction接口，也可以直接传入一个匿名类。当然，同样也可以通过传入Lambda表达式实现雷同的功能。
为了方便后续使用，界说一个WaterSensorMapFunction：

public class WaterSensorMapFunction implements MapFunction<String,WaterSensor> {
@Override
public WaterSensor map(String value) throws Exception {
String[] datas = value.split(",");
return new WaterSensor(datas[0],Long.valueOf(datas[1]) ,Integer.valueOf(datas[2]) );
}
}

复制代码

案例：使用reduce实现max和maxBy的功能。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .keyBy(WaterSensor::getId) .reduce(new ReduceFunction<WaterSensor>() { @Override public WaterSensor reduce(WaterSensor value1, WaterSensor value2) throws Exception { System.out.println("Demo7_Reduce.reduce"); int maxVc = Math.max(value1.getVc(), value2.getVc()); //实现max(vc)的效果取最大值，其他字段以当前组的第一个为主 //value1.setVc(maxVc); //实现maxBy(vc)的效果取当前最大值的所有字段 if (value1.getVc() > value2.getVc()){ value1.setVc(maxVc); return value1; }else { value2.setVc(maxVc); return value2; } } }).print();env.execute();

复制代码

reduce同简朴聚合算子一样，也要针对每一个key生存状态。由于状态不会清空，所以我们需要将reduce算子作用在一个有限key的流上。
3用户自界说函数（UDF）

用户自界说函数（user-defined function，UDF），即用户可以根据自身需求，重新实现算子的逻辑。
用户自界说函数分为：函数类、匿名函数、富函数类。
3.1函数类（Function Classes）

Flink袒露了所有UDF函数的接口，具体实现方式为接口大概抽象类，例如MapFunction、FilterFunction、ReduceFunction等。所以用户可以自界说一个函数类，实现对应的接口。
需求：用来从用户的点击数据中筛选包罗“sensor_1”的内容：
方式一：实现FilterFunction接口

public class TransFunctionUDF { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); DataStream<String> filter = stream.filter(new UserFilter()); filter.print(); env.execute();
} public static class UserFilter implements FilterFunction<WaterSensor> { @Override public boolean filter(WaterSensor e) throws Exception { return e.id.equals("sensor_1"); } }}

复制代码

方式二：通过匿名类来实现FilterFunction接口：

DataStream<String> stream = stream.filter(new FilterFunction< WaterSensor>() {
@Override
public boolean filter(WaterSensor e) throws Exception {
return e.id.equals("sensor_1");
}
});

复制代码

方式二的优化：为了类可以更加通用，我们还可以将用于过滤的关键字"home"抽象出来作为类的属性，调用构造方法时传进去。

DataStreamSource<WaterSensor> stream = env.fromElements(
new WaterSensor("sensor_1", 1, 1),
new WaterSensor("sensor_1", 2, 2),
new WaterSensor("sensor_2", 2, 2),
new WaterSensor("sensor_3", 3, 3)
);
DataStream<String> stream = stream.filter(new FilterFunctionImpl("sensor_1"));
public static class FilterFunctionImpl implements FilterFunction<WaterSensor> {
private String id;
FilterFunctionImpl(String id) { this.id=id; }
@Override
public boolean filter(WaterSensor value) throws Exception {
return thid.id.equals(value.id);
}
}

复制代码

方式三：采用匿名函数（Lambda）

public class TransFunctionUDF { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<WaterSensor> stream = env.fromElements( new WaterSensor("sensor_1", 1, 1), new WaterSensor("sensor_1", 2, 2), new WaterSensor("sensor_2", 2, 2), new WaterSensor("sensor_3", 3, 3) ); //map函数使用Lambda表达式，不需要进行范例声明 SingleOutputStreamOperator<String> filter = stream.filter(sensor -> "sensor_1".equals(sensor.id)); filter.print(); env.execute();
}}

复制代码

3.2富函数类（Rich Function Classes）

“富函数类”也是DataStream API提供的一个函数类的接口，所有的Flink函数类都有其Rich版本。富函数类一般是以抽象类的形式出现的。例如：RichMapFunction、RichFilterFunction、RichReduceFunction等。
与常规函数类的不同重要在于，富函数类可以获取运行环境的上下文，并拥有一些生命周期方法，所以可以实现更复杂的功能。
Rich Function有生命周期的概念。典型的生命周期方法有：
-open()方法，是Rich Function的初始化方法，也就是会开启一个算子的生命周期。当一个算子的实际工作方法例如map()大概filter()方法被调用之前，open()会起首被调用。
-close()方法，是生命周期中的最后一个调用的方法，雷同于结束方法。一般用来做一些清算工作。
需要留意的是，这里的生命周期方法，对于一个并行子任务来说只会调用一次；而对应的，实际工作方法，例如RichMapFunction中的map()，在每条数据到来后都会触发一次调用。
来看一个例子说明：

public class RichFunctionExample { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); env.fromElements(1,2,3,4) .map(new RichMapFunction<Integer, Integer>() { @Override public void open(Configuration parameters) throws Exception { super.open(parameters); System.out.println("索引是：" + getRuntimeContext().getIndexOfThisSubtask() + " 的任务的生命周期开始"); } @Override public Integer map(Integer integer) throws Exception { return integer + 1; } @Override public void close() throws Exception { super.close(); System.out.println("索引是：" + getRuntimeContext().getIndexOfThisSubtask() + " 的任务的生命周期结束"); } }).print(); env.execute();
}}

复制代码

4物理分区算子（Physical Partitioning）

常见的物理分区策略有：随机分配（Random）、轮询分配（Round-Robin）、重缩放（Rescale）和广播（Broadcast）。
4.1随机分区（shuffle）

最简朴的重分区方式就是直接“洗牌”。通过调用DataStream的.shuffle()方法，将数据随机地分配到下游算子的并行任务中去。
随机分区服从均匀分布（uniform distribution），所以可以把流中的数据随机打乱，均匀地传递到下游任务分区。由于是完全随机的，所以对于同样的输入数据, 每次执行得到的结果也不会雷同。颠末随机分区之后，得到的依然是一个DataStream。

我们可以做个简朴测试：将数据读入之后直接打印到控制台，将输出的并行度设置为2，中心经历一次shuffle。执行多次，观察结果是否雷同。

public class ShuffleExample { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); DataStreamSource<Integer> stream = env.socketTextStream("hadoop102", 7777);; stream.shuffle().print() env.execute();
}}

复制代码

4.2轮询分区（Round-Robin）

轮询，简朴来说就是“发牌”，按照先后序次将数据做依次分发。通过调用DataStream的.rebalance()方法，就可以实现轮询重分区。rebalance使用的是Round-Robin负载均衡算法，可以将输入流数据平均分配到下游的并行任务中去。

stream.rebalance()

复制代码

4.3重缩放分区（rescale）

重缩放分区和轮询分区非常相似。当调用rescale()方法时，实在底层也是使用Round-Robin算法进行轮询，但是只会将数据轮询发送到下游并行任务的一部门中。rescale的做法是分成小团体，发牌人只给自己团体内的所有人轮流发牌。

stream.rescale()

复制代码

4.4广播（broadcast）

这种方式实在不应该叫做“重分区”，由于颠末广播之后，数据会在不同的分区都生存一份，可能进行重复处置处罚。可以通过调用DataStream的broadcast()方法，将输入数据复制并发送到下游算子的所有并行任务中去。

stream.broadcast()

复制代码

4.5全局分区（global）

全局分区也是一种特殊的分区方式。这种做法非常极度，通过调用.global()方法，会将所有的输入流数据都发送到下游算子的第一个并行子任务中去。这就相当于强行让下游任务并行度酿成了1，所以使用这个操作需要非常审慎，可能对程序造成很大的压力。

stream.global()

复制代码

4.6自界说分区（Custom）

当Flink提供的所有分区策略都不能满足用户的需求时，我们可以通过使用partitionCustom()方法来自界说分区策略。
1）自界说分区器

public class MyPartitioner implements Partitioner<String> {
@Override
public int partition(String key, int numPartitions) {
return Integer.parseInt(key) % numPartitions;
}
}

复制代码

2）使用自界说分区

public class PartitionCustomDemo { public static void main(String[] args) throws Exception {// StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration()); env.setParallelism(2); DataStreamSource<String> socketDS = env.socketTextStream("hadoop102", 7777); DataStream<String> myDS = socketDS .partitionCustom( new MyPartitioner(), value -> value); myDS.print(); env.execute();
}}

复制代码

5分流

所谓“分流”，就是将一条数据流拆分成完全独立的两条、乃至多条流。也就是基于一个DataStream，界说一些筛选条件，将符合条件的数据拣选出来放到对应的流里。

5.1简朴实现

实在根据条件筛选数据的需求，自己非常轻易实现：只要针对同一条流多次独立调用.filter()方法进行筛选，就可以得到拆分之后的流了。
案例需求：读取一个整数数字流，将数据流分别为奇数流和偶数流。

public class SplitStreamByFilter { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<Integer> ds = env.socketTextStream("hadoop102", 7777).map(Integer::valueOf); //将ds 分为两个流，一个是奇数流，一个是偶数流 //使用filter 过滤两次 SingleOutputStreamOperator<Integer> ds1 = ds.filter(x -> x % 2 == 0); SingleOutputStreamOperator<Integer> ds2 = ds.filter(x -> x % 2 == 1); ds1.print("偶数"); ds2.print("奇数"); env.execute();
}}

复制代码

这种实现非常简朴，但代码显得有些冗余——我们的处置处罚逻辑对拆分出的三条流实在是一样的，却重复写了三次。而且这段代码背后的含义，是将原始数据流stream复制三份，然后对每一份分别做筛选；这显着是不够高效的。我们自然想到，能不能不消复制流，直接用一个算子就把它们都拆分开呢？
5.2使用侧输出流

关于处置处罚函数中侧输出流的用法，我们已经在7.5节做了详细介绍。简朴来说，只需要调用上下文ctx的.output()方法，就可以输出任意范例的数据了。而侧输出流的标志和提取，都离不开一个“输出标签”（OutputTag），指定了侧输出流的id和范例。
代码实现：将WaterSensor按照Id范例进行分流。

public class SplitStreamByOutputTag { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<WaterSensor> ds = env.socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); OutputTag<WaterSensor> s1 = new OutputTag<>("s1", Types.POJO(WaterSensor.class)){}; OutputTag<WaterSensor> s2 = new OutputTag<>("s2", Types.POJO(WaterSensor.class)){}; //返回的都是主流 SingleOutputStreamOperator<WaterSensor> ds1 = ds.process(new ProcessFunction<WaterSensor, WaterSensor>() { @Override public void processElement(WaterSensor value, Context ctx, Collector<WaterSensor> out) throws Exception { if ("s1".equals(value.getId())) { ctx.output(s1, value); } else if ("s2".equals(value.getId())) { ctx.output(s2, value); } else { //主流 out.collect(value); } } }); ds1.print("主流，非s1,s2的传感器"); SideOutputDataStream<WaterSensor> s1DS = ds1.getSideOutput(s1); SideOutputDataStream<WaterSensor> s2DS = ds1.getSideOutput(s2); s1DS.printToErr("s1"); s2DS.printToErr("s2"); env.execute();
}}

复制代码

6基本合流操作

在实际应用中，我们常常会遇到泉源不同的多条流，需要将它们的数据进行联合处置处罚。所以Flink中合流的操作会更加普遍，对应的API也更加丰富。
6.1联合（Union）

最简朴的合流操作，就是直接将多条流合在一起，叫作流的“联合”（union）。联合操作要求必须流中的数据范例必须雷同，合并之后的新流会包括所有流中的元素，数据范例稳定。

在代码中，我们只要基于DataStream直接调用.union()方法，传入其他DataStream作为参数，就可以实现流的联合了；得到的依然是一个DataStream：

stream1.union(stream2, stream3, ...)

复制代码

留意：union()的参数可以是多个DataStream，所以联合操作可以实现多条流的合并。
代码实现：我们可以用下面的代码做一个简朴测试：

public class UnionExample { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); DataStreamSource<Integer> ds1 = env.fromElements(1, 2, 3); DataStreamSource<Integer> ds2 = env.fromElements(2, 2, 3); DataStreamSource<String> ds3 = env.fromElements("2", "2", "3"); ds1.union(ds2,ds3.map(Integer::valueOf)) .print(); env.execute();
}}

复制代码

6.2连接（Connect）

流的联合固然简朴，不外受限于数据范例不能改变，灵活性大打扣头，所以实际应用较少出现。除了联合（union），Flink还提供了别的一种方便的合流操作——连接（connect）。
6.2.1）连接流（ConnectedStreams）

代码实现：需要分为两步：起首基于一条DataStream调用.connect()方法，传入别的一条DataStream作为参数，将两条流连接起来，得到一个ConnectedStreams；然后再调用同处置处罚方法得到DataStream。这里可以的调用的同处置处罚方法有.map()/.flatMap()，以及.process()方法。

public class ConnectDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);// DataStreamSource<Integer> source1 = env.fromElements(1, 2, 3);// DataStreamSource<String> source2 = env.fromElements("a", "b", "c"); SingleOutputStreamOperator<Integer> source1 = env.socketTextStream("hadoop102", 7777) .map(i -> Integer.parseInt(i)); DataStreamSource<String> source2 = env.socketTextStream("hadoop102", 8888); /** * TODO 使用 connect 合流 * 1、一次只能连接 2条流 * 2、流的数据范例可以不一样 * 3、连接后可以调用 map、flatmap、process来处置处罚，但是各处置处罚各的 */ ConnectedStreams<Integer, String> connect = source1.connect(source2); SingleOutputStreamOperator<String> result = connect.map(new CoMapFunction<Integer, String, String>() { @Override public String map1(Integer value) throws Exception { return "泉源于数字流:" + value.toString(); } @Override public String map2(String value) throws Exception { return "泉源于字母流:" + value; } }); result.print(); env.execute();
}}

复制代码

上面的代码中，ConnectedStreams有两个范例参数，分别表现内部包罗的两条流各自的数据范例；由于需要“一国两制”，因此调用.map()方法时传入的不再是一个简朴的MapFunction，而是一个CoMapFunction，表现分别对两条流中的数据执行map操作。这个接口有三个范例参数，依次表现第一条流、第二条流，以及合并后的流中的数据范例。需要实现的方法也非常直白：.map1()就是对第一条流中数据的map操作，.map2()则是针对第二条流。
6.2.2）CoProcessFunction

与CoMapFunction雷同，假如是调用.map()就需要传入一个CoMapFunction，需要实现map1()、map2()两个方法；而调用.process()时，传入的则是一个CoProcessFunction。它也是“处置处罚函数”眷属中的一员，用法非常相似。它需要实现的就是processElement1()、processElement2()两个方法，在每个数据到来时，会根据泉源的流调用其中的一个方法进行处置处罚。
值得一提的是，ConnectedStreams也可以直接调用.keyBy()进行按键分区的操作，得到的还是一个ConnectedStreams：

connectedStreams.keyBy(keySelector1, keySelector2);

复制代码

这里传入两个参数keySelector1和keySelector2，是两条流中各自的键选择器；当然也可以直接传入键的位置值（keyPosition），大概键的字段名（field），这与普通的keyBy用法完全同等。ConnectedStreams进行keyBy操作，实在就是把两条流中key雷同的数据放到了一起，然后针对泉源的流再做各自处置处罚，这在一些场景下非常有效。
!!!案例需求：连接两条流，输出能根据id匹配上的数据（雷同inner join效果）

public class ConnectKeybyDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); DataStreamSource<Tuple2<Integer, String>> source1 = env.fromElements( Tuple2.of(1, "a1"), Tuple2.of(1, "a2"), Tuple2.of(2, "b"), Tuple2.of(3, "c") ); DataStreamSource<Tuple3<Integer, String, Integer>> source2 = env.fromElements( Tuple3.of(1, "aa1", 1), Tuple3.of(1, "aa2", 2), Tuple3.of(2, "bb", 1), Tuple3.of(3, "cc", 1) ); ConnectedStreams<Tuple2<Integer, String>, Tuple3<Integer, String, Integer>> connect = source1.connect(source2); // 多并行度下，需要根据关联条件进行keyby，才能包管key雷同的数据到一起去，才能匹配上 ConnectedStreams<Tuple2<Integer, String>, Tuple3<Integer, String, Integer>> connectKey = connect.keyBy(s1 -> s1.f0, s2 -> s2.f0); SingleOutputStreamOperator<String> result = connectKey.process( new CoProcessFunction<Tuple2<Integer, String>, Tuple3<Integer, String, Integer>, String>() { // 界说 HashMap，缓存来过的数据，key=id，value=list<数据> Map<Integer, List<Tuple2<Integer, String>>> s1Cache = new HashMap<>(); Map<Integer, List<Tuple3<Integer, String, Integer>>> s2Cache = new HashMap<>(); @Override public void processElement1(Tuple2<Integer, String> value, Context ctx, Collector<String> out) throws Exception { Integer id = value.f0; // TODO 1.来过的s1数据，都存起来 if (!s1Cache.containsKey(id)) { // 1.1 第一条数据，初始化 value的list，放入 hashmap List<Tuple2<Integer, String>> s1Values = new ArrayList<>(); s1Values.add(value); s1Cache.put(id, s1Values); } else { // 1.2 不是第一条，直接添加到 list中 s1Cache.get(id).add(value); } //TODO 2.根据id，查找s2的数据，只输出匹配上的数据 if (s2Cache.containsKey(id)) { for (Tuple3<Integer, String, Integer> s2Element : s2Cache.get(id)) { out.collect("s1:" + value + "<--------->s2:" + s2Element); } } } @Override public void processElement2(Tuple3<Integer, String, Integer> value, Context ctx, Collector<String> out) throws Exception { Integer id = value.f0; // TODO 1.来过的s2数据，都存起来 if (!s2Cache.containsKey(id)) { // 1.1 第一条数据，初始化 value的list，放入 hashmap List<Tuple3<Integer, String, Integer>> s2Values = new ArrayList<>(); s2Values.add(value); s2Cache.put(id, s2Values); } else { // 1.2 不是第一条，直接添加到 list中 s2Cache.get(id).add(value); } //TODO 2.根据id，查找s1的数据，只输出匹配上的数据 if (s1Cache.containsKey(id)) { for (Tuple2<Integer, String> s1Element : s1Cache.get(id)) { out.collect("s1:" + s1Element + "<--------->s2:" + value); } } } }); result.print(); env.execute();
}}

复制代码

D输出算子Sink

Flink作为数据处置处罚框架，终极还是要把计算处置处罚的结果写入外部存储，为外部应用提供支持。

1连接到外部系统

Flink的DataStream API专门提供了向外部写入数据的方法：addSink。与addSource雷同，addSink方法对应着一个“Sink”算子，重要就是用来实现与外部系统连接、并将数据提交写入的；Flink程序中所有对外的输出操作，一般都是利用Sink算子完成的。
Flink1.12从前，Sink算子的创建是通过调用DataStream的.addSink()方法实现的。

stream.addSink(new SinkFunction(…));

复制代码

addSink方法同样需要传入一个参数，实现的是SinkFunction接口。在这个接口中只需要重写一个方法invoke()，用来将指定的值写入到外部系统中。这个方法在每条数据记载到来时都会调用。
Flink1.12开始，同样重构了Sink架构，

stream.sinkTo(…)

复制代码

当然，Sink多数情况下同样并不需要我们自己实现。之前我们不停在使用的print方法实在就是一种Sink，它表现将数据流写入尺度控制台打印输出。Flink官方为我们提供了一部门的框架的Sink连接器。如下图所示，列出了Flink官方目前支持的第三方系统连接器：

我们可以看到，像Kafka之类流式系统，Flink提供了完美对接，source/sink两端都能连接，可读可写；而对于Elasticsearch、JDBC等数据存储系统，则只提供了输出写入的sink连接器。
除Flink官方之外，Apache Bahir框架，也实现了一些其他第三方系统与Flink的连接器。

除此以外，就需要用户自界说实现sink连接器了。
2输出到文件

Flink专门提供了一个流式文件系统的连接器：FileSink，为批处置处罚和流处置处罚提供了一个同一的Sink，它可以将分区文件写入Flink支持的文件系统。
FileSink支持行编码（Row-encoded）和批量编码（Bulk-encoded）格式。这两种不同的方式都有各自的构建器（builder），可以直接调用FileSink的静态方法：
-行编码： FileSink.forRowFormat（basePath，rowEncoder）。
-批量编码： FileSink.forBulkFormat（basePath，bulkWriterFactory）。
示例:

public class SinkFile { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 每个目次中，都有并行度个数的文件在写入 env.setParallelism(2); // 必须开启checkpoint，否则不停都是 .inprogress env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE); DataGeneratorSource<String> dataGeneratorSource = new DataGeneratorSource<>( new GeneratorFunction<Long, String>() { @Override public String map(Long value) throws Exception { return "Number:" + value; } }, Long.MAX_VALUE, RateLimiterStrategy.perSecond(1000), Types.STRING ); DataStreamSource<String> dataGen = env.fromSource(dataGeneratorSource, WatermarkStrategy.noWatermarks(), "data-generator"); // 输出到文件系统 FileSink<String> fieSink = FileSink // 输出行式存储的文件，指定路径、指定编码 .<String>forRowFormat(new Path("f:/tmp"), new SimpleStringEncoder<>("UTF-8")) // 输出文件的一些配置：文件名的前缀、后缀 .withOutputFileConfig( OutputFileConfig.builder() .withPartPrefix("atguigu-") .withPartSuffix(".log") .build() ) // 按照目次分桶：如下，就是每个小时一个目次 .withBucketAssigner(new DateTimeBucketAssigner<>("yyyy-MM-dd HH", ZoneId.systemDefault())) // 文件滚动策略: 1分钟或 1m .withRollingPolicy( DefaultRollingPolicy.builder() .withRolloverInterval(Duration.ofMinutes(1)) .withMaxPartSize(new MemorySize(1024*1024)) .build() ) .build(); dataGen.sinkTo(fieSink); env.execute();
}}

复制代码

3输出到Kafka

（1）添加Kafka 连接器依赖
由于我们已经测试过从Kafka数据源读取数据，连接器相干依赖已经引入，这里就不重复介绍了。
（2）启动Kafka集群
（3）编写输出到Kafka的示例代码
输出无key的record:

public class SinkKafka { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); // 假如是精准一次，必须开启checkpoint（后续章节介绍） env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE); SingleOutputStreamOperator<String> sensorDS = env .socketTextStream("hadoop102", 7777); /** * Kafka Sink: * TODO 留意：假如要使用精准一次写入Kafka，需要满足以下条件，缺一不可 * 1、开启checkpoint（后续介绍） * 2、设置事务前缀 * 3、设置事务超时时间： checkpoint隔断 < 事务超时时间 < max的15分钟 */ KafkaSink<String> kafkaSink = KafkaSink.<String>builder() // 指定 kafka 的地址和端口 .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092") // 指定序列化器：指定Topic名称、具体的序列化 .setRecordSerializer( KafkaRecordSerializationSchema.<String>builder() .setTopic("ws") .setValueSerializationSchema(new SimpleStringSchema()) .build() ) // 写到kafka的同等性级别：精准一次、至少一次 .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE) // 假如是精准一次，必须设置事务的前缀 .setTransactionalIdPrefix("atguigu-") // 假如是精准一次，必须设置事务超时时间: 大于checkpoint隔断，小于 max 15分钟 .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 10*60*1000+"") .build(); sensorDS.sinkTo(kafkaSink); env.execute();
}}

复制代码

自界说序列化器，实现带key的record:

public class SinkKafkaWithKey { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE); env.setRestartStrategy(RestartStrategies.noRestart()); SingleOutputStreamOperator<String> sensorDS = env .socketTextStream("hadoop102", 7777); /** * 假如要指定写入kafka的key，可以自界说序列化器： * 1、实现一个接口，重写序列化方法 * 2、指定key，转成字节数组 * 3、指定value，转成字节数组 * 4、返回一个 ProducerRecord对象，把key、value放进去 */ KafkaSink<String> kafkaSink = KafkaSink.<String>builder() .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092") .setRecordSerializer( new KafkaRecordSerializationSchema<String>() { @Nullable @Override public ProducerRecord<byte[], byte[]> serialize(String element, KafkaSinkContext context, Long timestamp) { String[] datas = element.split(","); byte[] key = datas[0].getBytes(StandardCharsets.UTF_8); byte[] value = element.getBytes(StandardCharsets.UTF_8); return new ProducerRecord<>("ws", key, value); } } ) .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE) .setTransactionalIdPrefix("atguigu-") .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 10 * 60 * 1000 + "") .build(); sensorDS.sinkTo(kafkaSink); env.execute();
}}

复制代码

（4）运行代码，在Linux主机启动一个消耗者，查看是否收到数据

[atguigu@hadoop102 ~]$
bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic ws

复制代码

4输出到MySQL（JDBC）

写入数据的MySQL的测试步骤如下。
（1）添加依赖
添加MySQL驱动：

<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>8.0.27</version>
</dependency>

复制代码

官方还未提供flink-connector-jdbc的1.17.0的正式依赖，暂时从apache snapshot仓库下载，pom文件中指定仓库路径：

<repositories>
<repository>
<id>apache-snapshots</id>
<name>apache snapshots</name>
<url>https://repository.apache.org/content/repositories/snapshots/</url>
</repository>
</repositories>

复制代码

添加依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-jdbc</artifactId>
<version>1.17-SNAPSHOT</version>
</dependency>

复制代码

假如不收效，还需要修改本地maven的配置文件，mirrorOf中添加如下标红内容：

<mirror>
<id>aliyunmaven</id>
<mirrorOf>*,!apache-snapshots</mirrorOf>
<name>阿里云公共仓库</name>
<url>https://maven.aliyun.com/repository/public</url>
</mirror>

复制代码

（2）启动MySQL，在test库下建表ws

mysql>
CREATE TABLE `ws` (
`id` varchar(100) NOT NULL,
`ts` bigint(20) DEFAULT NULL,
`vc` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

复制代码

（3）编写输出到MySQL的示例代码

public class SinkMySQL { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); /** * TODO 写入mysql * 1、只能用老的sink写法： addsink * 2、JDBCSink的4个参数: * 第一个参数：执行的sql，一般就是 insert into * 第二个参数：预编译sql，对占位符填充值 * 第三个参数：执行选项 ---》攒批、重试 * 第四个参数：连接选项 ---》 url、用户名、暗码 */ SinkFunction<WaterSensor> jdbcSink = JdbcSink.sink( "insert into ws values(?,?,?)", new JdbcStatementBuilder<WaterSensor>() { @Override public void accept(PreparedStatement preparedStatement, WaterSensor waterSensor) throws SQLException { //每收到一条WaterSensor，如何去填充占位符 preparedStatement.setString(1, waterSensor.getId()); preparedStatement.setLong(2, waterSensor.getTs()); preparedStatement.setInt(3, waterSensor.getVc()); } }, JdbcExecutionOptions.builder() .withMaxRetries(3) // 重试次数 .withBatchSize(100) // 批次的大小：条数 .withBatchIntervalMs(3000) // 批次的时间 .build(), new JdbcConnectionOptions.JdbcConnectionOptionsBuilder() .withUrl("jdbc:mysql://hadoop102:3306/test?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8") .withUsername("root") .withPassword("000000") .withConnectionCheckTimeoutSeconds(60) // 重试的超时时间 .build() ); sensorDS.addSink(jdbcSink); env.execute();
}}

复制代码

（4）运行代码，用客户端连接MySQL，查看是否成功写入数据。
5自界说Sink输出

假如我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自界说Sink进行输出了。与Source雷同，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简朴地调用DataStream的.addSink()方法就可以自界说写入任何外部存储。

stream.addSink(new MySinkFunction<String>());

复制代码

在实现SinkFunction的时间，需要重写的一个关键方法invoke()，在这个方法中我们就可以实现将流里的数据发送出去的逻辑。
这种方式比较通用，对于任何外部存储系统都有效；不外自界说Sink想要实现状态同等性并不轻易，所以一般只在没有其它选择时使用。实际项目中用到的外部连接器Flink官方基本都已实现，而且在不停地扩充，因此自界说的场景并不常见。
DataSet 批处置处罚算子

一、Source算子

fromCollection
fromCollection：从本地聚集读取数据
例：

val env = ExecutionEnvironment.getExecutionEnvironment
val textDataSet: DataSet[String] = env.fromCollection(
List("1,张三", "2,李四", "3,王五", "4,赵六")
)

复制代码

readTextFile
readTextFile：从文件中读取

val textDataSet: DataSet[String] = env.readTextFile("/data/a.txt")

复制代码

readTextFile：遍历目次
readTextFile可以对一个文件目次内的所有文件，包括所有子目次中的所有文件的遍历访问方式

val parameters = new Configuration
// recursive.file.enumeration 开启递归
parameters.setBoolean("recursive.file.enumeration", true)
val file = env.readTextFile("/data").withParameters(parameters)

复制代码

readTextFile：读取压缩文件
对于以下压缩范例，不需要指定任何额外的inputformat方法，flink可以自动辨认而且解压。但是，压缩文件可能不会并行读取，可能是序次读取的，如许可能会影响作业的可伸缩性。

val file = env.readTextFile("/data/file.gz")

复制代码

二、Transform转换算子

由于Transform算子基于Source算子操作，所以起首构建Flink执行环境及Source算子，后续Transform算子操作基于此：

val env = ExecutionEnvironment.getExecutionEnvironment
val textDataSet: DataSet[String] = env.fromCollection(
List("张三,1", "李四,2", "王五,3", "张三,4")
)

复制代码

map
将DataSet中的每一个元素转换为别的一个元素

// 使用map将List转换为一个Scala的样例类
case class User(name: String, id: String)
val userDataSet: DataSet[User] = textDataSet.map {
text =>
val fieldArr = text.split(",")
User(fieldArr(0), fieldArr(1))
}
userDataSet.print()

复制代码

flatMap
将DataSet中的每一个元素转换为0…n个元素。

// 使用flatMap操作，将集合中的数据：
// 根据第一个元素，进行分组
// 根据第二个元素，进行聚合求值
val result = textDataSet.flatMap(line => line)
.groupBy(0) // 根据第一个元素，进行分组
.sum(1) // 根据第二个元素，进行聚合求值
result.print()

复制代码

mapPartition
将一个分区中的元素转换为另一个元素

// 使用mapPartition操作，将List转换为一个scala的样例类
case class User(name: String, id: String)
val result: DataSet[User] = textDataSet.mapPartition(line => {
line.map(index => User(index._1, index._2))
})
result.print()

复制代码

filter
过滤出来一些符合条件的元素，返回boolean值为true的元素

val source: DataSet[String] = env.fromElements("java", "scala", "java")
val filter:DataSet[String] = source.filter(line => line.contains("java"))//过滤出带java的数据
filter.print()

复制代码

reduce
可以对一个dataset大概一个group来进行聚合计算，终极聚合成一个元素

// 使用 fromElements 构建数据源
val source = env.fromElements(("java", 1), ("scala", 1), ("java", 1))
// 使用map转换成DataSet元组
val mapData: DataSet[(String, Int)] = source.map(line => line)
// 根据首个元素分组
val groupData = mapData.groupBy(_._1)
// 使用reduce聚合
val reduceData = groupData.reduce((x, y) => (x._1, x._2 + y._2))
// 打印测试
reduceData.print()

复制代码

reduceGroup
将一个dataset大概一个group聚合成一个或多个元素。
reduceGroup是reduce的一种优化方案；
它会先分组reduce，然后在做整体的reduce；如许做的好处就是可以减少网络IO

// 使用 fromElements 构建数据源
val source: DataSet[(String, Int)] = env.fromElements(("java", 1), ("scala", 1), ("java", 1))
// 根据首个元素分组
val groupData = source.groupBy(_._1)
// 使用reduceGroup聚合
val result: DataSet[(String, Int)] = groupData.reduceGroup {
(in: Iterator[(String, Int)], out: Collector[(String, Int)]) =>
val tuple = in.reduce((x, y) => (x._1, x._2 + y._2))
out.collect(tuple)
}
// 打印测试
result.print()

复制代码

minBy和maxBy
选择具有最小值或最大值的元素

// 使用minBy操作，求List中每个人的最小值
// List("张三,1", "李四,2", "王五,3", "张三,4")
case class User(name: String, id: String)
// 将List转换为一个scala的样例类
val text: DataSet[User] = textDataSet.mapPartition(line => {
line.map(index => User(index._1, index._2))
})
val result = text
.groupBy(0) // 按照姓名分组
.minBy(1) // 每个人的最小值

复制代码

Aggregate
在数据集上进行聚合求最值（最大值、最小值）

val data = new mutable.MutableList[(Int, String, Double)]
data.+=((1, "yuwen", 89.0))
data.+=((2, "shuxue", 92.2))
data.+=((3, "yuwen", 89.99))
// 使用 fromElements 构建数据源
val input: DataSet[(Int, String, Double)] = env.fromCollection(data)
// 使用group执行分组操作
val value = input.groupBy(1)
// 使用aggregate求最大值元素
.aggregate(Aggregations.MAX, 2)
// 打印测试
value.print()

复制代码

Aggregate只能作用于元组上
留意：
要使用aggregate，只能使用字段索引名或索引名称来进行分组 groupBy(0) ，否则会报一下错误:
Exception in thread “main” java.lang.UnsupportedOperationException: Aggregate does not support grouping with KeySelector functions, yet.

distinct
去除重复的数据

// 数据源使用上一题的
// 使用distinct操作，根据科目去除集合中重复的元组数据
val value: DataSet[(Int, String, Double)] = input.distinct(1)
value.print()

复制代码

first
取前N个数

input.first(2) // 取前两个数

复制代码

join
将两个DataSet按照一定条件连接到一起，形成新的DataSet

// s1 和 s2 数据集格式如下：
// DataSet[(Int, String,String, Double)]
val joinData = s1.join(s2) // s1数据集 join s2数据集
.where(0).equalTo(0) { // join的条件
(s1, s2) => (s1._1, s1._2, s2._2, s1._3)
}

复制代码

leftOuterJoin
左外连接,左边的Dataset中的每一个元素，去连接右边的元素
别的另有：
rightOuterJoin：右外连接,左边的Dataset中的每一个元素，去连接左边的元素
fullOuterJoin：全外连接,左右两边的元素，全部连接
下面以 leftOuterJoin 进行示例：

val data1 = ListBuffer[Tuple2[Int,String]]()
data1.append((1,"zhangsan"))
data1.append((2,"lisi"))
data1.append((3,"wangwu"))
data1.append((4,"zhaoliu"))
val data2 = ListBuffer[Tuple2[Int,String]]()
data2.append((1,"beijing"))
data2.append((2,"shanghai"))
data2.append((4,"guangzhou"))
val text1 = env.fromCollection(data1)
val text2 = env.fromCollection(data2)
text1.leftOuterJoin(text2).where(0).equalTo(0).apply((first,second)=>{
if(second==null){
(first._1,first._2,"null")
}else{
(first._1,first._2,second._2)
}
}).print()

复制代码

cross
交叉操作，通过形成这个数据集和其他数据集的笛卡尔积，创建一个新的数据集
和join雷同，但是这种交叉操作会产生笛卡尔积，在数据比较大的时间，是非常斲丧内存的操作

val cross = input1.cross(input2){
(input1 , input2) => (input1._1,input1._2,input1._3,input2._2)
}
cross.print()

复制代码

union
联合操作，创建包罗来自该数据集和其他数据集的元素的新数据集,不会去重

val unionData: DataSet[String] = elements1.union(elements2).union(elements3)
// 去除重复数据
val value = unionData.distinct(line => line)

复制代码

rebalance
Flink也有数据倾斜的时间，比如当前有数据量大概10亿条数据需要处置处罚，在处置处罚过程中可能会发生如图所示的状况：

这个时间本来总体数据量只需要10分钟办理的问题，出现了数据倾斜，呆板1上的任务需要4个小时才能完成，那么其他3台呆板执行完毕也要等待呆板1执行完毕后才算整体将任务完成；所以在实际的工作中，出现这种情况比较好的办理方案就是接下来要介绍的—rebalance（内部使用round robin方法将数据均匀打散。这对于数据倾斜时是很好的选择。）

// 使用rebalance操作，避免数据倾斜
val rebalance = filterData.rebalance()

复制代码

partitionByHash
按照指定的key进行hash分区

val data = new mutable.MutableList[(Int, Long, String)]
data.+=((1, 1L, "Hi"))
data.+=((2, 2L, "Hello"))
data.+=((3, 2L, "Hello world"))
val collection = env.fromCollection(data)
val unique = collection.partitionByHash(1).mapPartition{
line =>
line.map(x => (x._1 , x._2 , x._3))
}
unique.writeAsText("hashPartition", WriteMode.NO_OVERWRITE)
env.execute()

复制代码

partitionByRange
根据指定的key对数据集进行范围分区

val data = new mutable.MutableList[(Int, Long, String)]
data.+=((1, 1L, "Hi"))
data.+=((2, 2L, "Hello"))
data.+=((3, 2L, "Hello world"))
data.+=((4, 3L, "Hello world, how are you?"))
val collection = env.fromCollection(data)
val unique = collection.partitionByRange(x => x._1).mapPartition(line => line.map{
x=>
(x._1 , x._2 , x._3)
})
unique.writeAsText("rangePartition", WriteMode.OVERWRITE)
env.execute()

复制代码

sortPartition
根据指定的字段值进行分区的排序

val data = new mutable.MutableList[(Int, Long, String)]
data.+=((1, 1L, "Hi"))
data.+=((2, 2L, "Hello"))
data.+=((3, 2L, "Hello world"))
data.+=((4, 3L, "Hello world, how are you?"))
val ds = env.fromCollection(data)
val result = ds
.map { x => x }.setParallelism(2)
.sortPartition(1, Order.DESCENDING)//第一个参数代表按照哪个字段进行分区
.mapPartition(line => line)
.collect()
println(result)

复制代码

三、Sink算子

collect
将数据输出到本地聚集

result.collect()

复制代码

writeAsText
将数据输出到文件
Flink支持多种存储设备上的文件，包括本地文件，hdfs文件等
Flink支持多种文件的存储格式，包括text文件，CSV文件等

// 将数据写入本地文件
result.writeAsText("/data/a", WriteMode.OVERWRITE)
// 将数据写入HDFS
result.writeAsText("hdfs://node01:9000/data/a", WriteMode.OVERWRITE)

复制代码

DataStream流处置处罚算子

和DataSet一样，DataStream也包括一系列的Transformation操作
一、Source算子

Flink可以使用 StreamExecutionEnvironment.addSource(source) 来为我们的程序添加数据泉源。
Flink 已经提供了若干实现好了的 source functions，当然我们也可以通过实现 SourceFunction 来自界说非并行的source大概实现 ParallelSourceFunction 接口大概扩展 RichParallelSourceFunction 来自界说并行的 source。
Flink在流处置处罚上的source和在批处置处罚上的source基本同等。大抵有4大类：
基于本地聚集的source（Collection-based-source）
基于文件的source（File-based-source）- 读取文本文件，即符合 TextInputFormat 规范的文件，并将其作为字符串返回
基于网络套接字的source（Socket-based-source）- 从 socket 读取。元素可以用分隔符切分。
自界说的source（Custom-source）
下面使用addSource将Kafka数据写入Flink为例：
假如需要外部数据源对接，可使用addSource，如将Kafka数据写入Flink，先引入依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka-0.11_2.11</artifactId>
<version>1.10.0</version>
</dependency>

复制代码

将Kafka数据写入Flink：

val properties = new Properties()
properties.setProperty("bootstrap.servers", "localhost:9092")
properties.setProperty("group.id", "consumer-group")
properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
properties.setProperty("auto.offset.reset", "latest")
val source = env.addSource(new FlinkKafkaConsumer011[String]("sensor", new SimpleStringSchema(), properties))

复制代码

基于网络套接字的：

val source = env.socketTextStream("IP", PORT)

复制代码

二、Transform转换算子

map
将DataSet中的每一个元素转换为别的一个元素

dataStream.map { x => x * 2 }

复制代码

FlatMap
采用一个数据元并天生零个，一个或多个数据元。将句子分割为单词的flatmap函数

dataStream.flatMap { str => str.split(" ") }

复制代码

Filter
计算每个数据元的布尔函数，并生存函数返回true的数据元。过滤掉零值的过滤器

dataStream.filter { _ != 0 }

复制代码

KeyBy
逻辑大将流分区为不相交的分区。具有雷同Keys的所有记载都分配给同一分区。在内部，keyBy（）是使用散列分区实现的。指定键有不同的方法。
此转换返回KeyedStream，其中包括使用被Keys化状态所需的KeyedStream。

dataStream.keyBy(0)

复制代码

Reduce
被Keys化数据流上的“滚动”Reduce。将当前数据元与最后一个Reduce的值组合并发出新值

keyedStream.reduce { _ + _ }

复制代码

Fold
具有初始值的被Keys化数据流上的“滚动”折叠。将当前数据元与最后折叠的值组合并发出新值

val result: DataStream[String] = keyedStream.fold("start")((str, i) => { str + "-" + i })
// 解释：当上述代码应用于序列（1,2,3,4,5）时，输出结果“start-1”，“start-1-2”，“start-1-2-3”，...

复制代码

Aggregations
在被Keys化数据流上滚动聚合。min和minBy之间的差异是min返回最小值，而minBy返回该字段中具有最小值的数据元（max和maxBy雷同）。

keyedStream.sum(0);
keyedStream.min(0);
keyedStream.max(0);
keyedStream.minBy(0);
keyedStream.maxBy(0);

复制代码

Window
可以在已经分区的KeyedStream上界说Windows。Windows根据某些特性（例如，在最后5秒内到达的数据）对每个Keys中的数据进行分组。这里不再对窗口进行详解，有关窗口的完备说明，请查看这篇文章： Flink 中极其重要的 Time 与 Window 详细剖析

dataStream.keyBy(0).window(TumblingEventTimeWindows.of(Time.seconds(5)));

复制代码

WindowAll
Windows可以在常规DataStream上界说。Windows根据某些特性（例如，在最后5秒内到达的数据）对所有流事件进行分组。
留意：在很多情况下，这是非并行转换。所有记载将网络在windowAll 算子的一个任务中。

dataStream.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))

复制代码

Window Apply
将一般函数应用于整个窗口。
留意：假如您正在使用windowAll转换，则需要使用AllWindowFunction。
下面是一个手动求和窗口数据元的函数

windowedStream.apply { WindowFunction }
allWindowedStream.apply { AllWindowFunction }

复制代码

Window Reduce
将函数缩减函数应用于窗口并返回缩小的值

windowedStream.reduce { _ + _ }

复制代码

Window Fold
将函数折叠函数应用于窗口并返回折叠值

val result: DataStream[String] = windowedStream.fold("start", (str, i) => { str + "-" + i })
// 上述代码应用于序列（1,2,3,4,5）时，将序列折叠为字符串“start-1-2-3-4-5”

复制代码

Union
两个或多个数据流的联合，创建包罗来自所有流的所有数据元的新流。留意：假如将数据流与自身联合，则会在结果流中获取两次数据元

dataStream.union(otherStream1, otherStream2, ...)

复制代码

Window Join
在给定Keys和公共窗口上连接两个数据流

dataStream.join(otherStream)
.where(<key selector>).equalTo(<key selector>)
.window(TumblingEventTimeWindows.of(Time.seconds(3)))
.apply (new JoinFunction () {...})

复制代码

Interval Join
在给定的时间隔断内使用公共Keys关联两个被Key化的数据流的两个数据元e1和e2，以便e1.timestamp + lowerBound <= e2.timestamp <= e1.timestamp + upperBound

am.intervalJoin(otherKeyedStream)
.between(Time.milliseconds(-2), Time.milliseconds(2))
.upperBoundExclusive(true)
.lowerBoundExclusive(true)
.process(new IntervalJoinFunction() {...})

复制代码

Window CoGroup
在给定Keys和公共窗口上对两个数据流进行Cogroup

dataStream.coGroup(otherStream)
.where(0).equalTo(1)
.window(TumblingEventTimeWindows.of(Time.seconds(3)))
.apply (new CoGroupFunction () {...})

复制代码

Connect
“连接”两个生存其范例的数据流。连接允许两个流之间的共享状态

DataStream<Integer> someStream = ... DataStream<String> otherStream = ... ConnectedStreams<Integer, String> connectedStreams = someStream.connect(otherStream)
// ... 代表省略中间操作

复制代码

CoMap，CoFlatMap
雷同于连接数据流上的map和flatMap

connectedStreams.map(
(_ : Int) => true,
(_ : String) => false)connectedStreams.flatMap(
(_ : Int) => true,
(_ : String) => false)

复制代码

Split
根据某些尺度将流拆分为两个或更多个流

val split = someDataStream.split(
(num: Int) =>
(num % 2) match {
case 0 => List("even")
case 1 => List("odd")
})

复制代码

Select
从拆分流中选择一个或多个流

SplitStream<Integer> split;DataStream<Integer> even = split.select("even");DataStream<Integer> odd = split.select("odd");DataStream<Integer> all = split.select("even","odd")

复制代码

三、Sink算子

支持将数据输出到：
本地文件(参考批处置处罚)
本地聚集(参考批处置处罚)
HDFS(参考批处置处罚)
除此之外，还支持：
sink到kafka
sink到mysql
sink到redis
下面以sink到kafka为例：

val sinkTopic = "test"
//样例类
case class Student(id: Int, name: String, addr: String, sex: String)
val mapper: ObjectMapper = new ObjectMapper()
//将对象转换成字符串
def toJsonString(T: Object): String = {
mapper.registerModule(DefaultScalaModule)
mapper.writeValueAsString(T)
}
def main(args: Array[String]): Unit = {
//1.创建流执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2.准备数据
val dataStream: DataStream[Student] = env.fromElements(
Student(8, "xiaoming", "beijing biejing", "female")
)
//将student转换成字符串
val studentStream: DataStream[String] = dataStream.map(student =>
toJsonString(student) // 这里需要显示SerializerFeature中的某一个，否则会报同时匹配两个方法的错误
)
//studentStream.print()
val prop = new Properties()
prop.setProperty("bootstrap.servers", "node01:9092")
val myProducer = new FlinkKafkaProducer011[String](sinkTopic, new KeyedSerializationSchemaWrapper[String](new SimpleStringSchema()), prop)
studentStream.addSink(myProducer)
studentStream.print()
env.execute("Flink add sink")
}

复制代码

6 Flink的Time时间和Window窗口

A窗口（Window）

1窗口概念

Flink是一种流式计算引擎，重要是来处置处罚无界数据流的，数据源源不停、无穷无尽。想要更加方便高效地处置处罚无界流，一种方式就是将无限数据切割成有限的“数据块”进行处置处罚，这就是所谓的“窗口”（Window）。

留意：Flink中窗口并不是静态准备好的，而是动态创建——当有落在这个窗口区间范围的数据到达时，才创建对应的窗口。别的，这里我们以为到达窗口结束时间时，窗口就触发计算并关闭，究竟上“触发计算”和“窗口关闭”两个举动也可以分开，这部门内容我们会在背面详述。
2 窗口的分类

在Flink中，窗口的应用非常灵活，我们可以使用各种不同范例的窗口来实现需求。接下来我们就从不同的角度，对Flink中内置的窗口做一个分类说明。
1）按照驱动范例分

2）按照窗口分配数据的规则分类

根据分配数据的规则，窗口的具体实现可以分为4类：滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）、会话窗口（Session Window），以及全局窗口（Global Window）。

3 窗口API概览

1）按键分区（Keyed）和非按键分区（Non-Keyed）
在界说窗口操作之前，起首需要确定，到底是基于按键分区（Keyed）的数据流KeyedStream来开窗，还是直接在没有按键分区的DataStream上开窗。也就是说，在调用窗口算子之前，是否有keyBy操作。
（1）按键分区窗口（Keyed Windows）
颠末按键分区keyBy操作后，数据流会按照key被分为多条逻辑流（logical streams），这就是KeyedStream。基于KeyedStream进行窗口操作时，窗口计算会在多个并行子任务上同时执行。雷同key的数据会被发送到同一个并行子任务，而窗口操作会基于每个key进行单独的处置处罚。所以可以以为，每个key上都界说了一组窗口，各自独立地进行统计计算。
在代码实现上，我们需要先对DataStream调用.keyBy()进行按键分区，然后再调用.window()界说窗口。

stream.keyBy(...)
.window(...)

复制代码

（2）非按键分区（Non-Keyed Windows）
假如没有进行keyBy，那么原始的DataStream就不会分成多条逻辑流。这时窗口逻辑只能在一个任务（task）上执行，就相当于并行度酿成了1。
在代码中，直接基于DataStream调用.windowAll()界说窗口。

stream.windowAll(...)

复制代码

留意：对于非按键分区的窗口操作，手动调大窗口算子的并行度也是无效的，windowAll自己就是一个非并行的操作。
2）代码中窗口API的调用
窗口操作重要有两个部门：窗口分配器（Window Assigners）和窗口函数（Window Functions）。

stream.keyBy(<key selector>)
.window(<window assigner>)
.aggregate(<window function>)

复制代码

其中.window()方法需要传入一个窗口分配器，它指明白窗口的范例；而背面的.aggregate()方法传入一个窗口函数作为参数，它用来界说窗口具体的处置处罚逻辑。窗口分配器有各种形式，而窗口函数的调用方法也不但.aggregate()一种，我们接下来就详细展开讲解。
4 窗口分配器

界说窗口分配器（Window Assigners）是构建窗口算子的第一步，它的作用就是界说数据应该被“分配”到哪个窗口。所以可以说，窗口分配器实在就是在指定窗口的范例。
窗口分配器最通用的界说方式，就是调用.window()方法。这个方法需要传入一个WindowAssigner作为参数，返回WindowedStream。
假如是非按键分区窗口，那么直接调用.windowAll()方法，同样传入一个WindowAssigner，返回的是AllWindowedStream。
窗口按照驱动范例可以分成时间窗口和计数窗口，而按照具体的分配规则，又有滚动窗口、滑动窗口、会话窗口、全局窗口四种。除去需要自界说的全局窗口外，其他常用的范例Flink中都给出了内置的分配器实现，我们可以方便地调用实现各种需求。
4.1 时间窗口

时间窗口是最常用的窗口范例，又可以细分为滚动、滑动和会话三种。
（1）滚动处置处罚时间窗口
窗口分配器由类TumblingProcessingTimeWindows提供，需要调用它的静态方法.of()。

stream.keyBy(...)
.window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
.aggregate(...)

复制代码

这里.of()方法需要传入一个Time范例的参数size，表现滚动窗口的大小，我们这里创建了一个长度为5秒的滚动窗口。
别的，.of()另有一个重载方法，可以传入两个Time范例的参数：size和offset。第一个参数当然还是窗口大小，第二个参数则表现窗口起始点的偏移量。
（2）滑动处置处罚时间窗口
窗口分配器由类SlidingProcessingTimeWindows提供，同样需要调用它的静态方法.of()。

stream.keyBy(...)
.window(SlidingProcessingTimeWindows.of(Time.seconds(10)，Time.seconds(5)))
.aggregate(...)

复制代码

这里.of()方法需要传入两个Time范例的参数：size和slide，前者表现滑动窗口的大小，后者表现滑动窗口的滑动步长。我们这里创建了一个长度为10秒、滑动步长为5秒的滑动窗口。
滑动窗口同样可以追加第三个参数，用于指定窗口起始点的偏移量，用法与滚动窗口完全同等。
（3）处置处罚时间会话窗口
窗口分配器由类ProcessingTimeSessionWindows提供，需要调用它的静态方法.withGap()大概.withDynamicGap()。

stream.keyBy(...)
.window(ProcessingTimeSessionWindows.withGap(Time.seconds(10)))
.aggregate(...)

复制代码

这里.withGap()方法需要传入一个Time范例的参数size，表现会话的超时时间，也就是最小隔断session gap。我们这里创建了静态会话超时时间为10秒的会话窗口。
别的，还可以调用withDynamicGap()方法界说session gap的动态提取逻辑。
（4）滚动事件时间窗口
窗口分配器由类TumblingEventTimeWindows提供，用法与滚动处置处罚事件窗口完全同等。

stream.keyBy(...)
.window(TumblingEventTimeWindows.of(Time.seconds(5)))
.aggregate(...)

复制代码

（5）滑动事件时间窗口
窗口分配器由类SlidingEventTimeWindows提供，用法与滑动处置处罚事件窗口完全同等。

stream.keyBy(...)
.window(SlidingEventTimeWindows.of(Time.seconds(10)，Time.seconds(5)))
.aggregate(...)

复制代码

（6）事件时间会话窗口
窗口分配器由类EventTimeSessionWindows提供，用法与处置处罚事件会话窗口完全同等。

stream.keyBy(...)
.window(EventTimeSessionWindows.withGap(Time.seconds(10)))
.aggregate(...)

复制代码

4.2 计数窗口

计数窗口概念非常简朴，自己底层是基于全局窗口（Global Window）实现的。Flink为我们提供了非常方便的接口：直接调用.countWindow()方法。根据分配规则的不同，又可以分为滚动计数窗口和滑动计数窗口两类，下面我们就来看它们的具体实现。
（1）滚动计数窗口
滚动计数窗口只需要传入一个长整型的参数size，表现窗口的大小。

stream.keyBy(...)
.countWindow(10)

复制代码

我们界说了一个长度为10的滚动计数窗口，当窗口中元素数目到达10的时间，就会触发计算执行并关闭窗口。
（2）滑动计数窗口
与滚动计数窗口雷同，不外需要在.countWindow()调用时传入两个参数：size和slide，前者表现窗口大小，后者表现滑动步长。

stream.keyBy(...)
.countWindow(10，3)

复制代码

我们界说了一个长度为10、滑动步长为3的滑动计数窗口。每个窗口统计10个数据，每隔3个数据就统计输出一次结果。
3）全局窗口
全局窗口是计数窗口的底层实现，一般在需要自界说窗口时使用。它的界说同样是直接调用.window()，分配器由GlobalWindows类提供。

stream.keyBy(...)
.window(GlobalWindows.create());

复制代码

需要留意使用全局窗口，必须自行界说触发器才能实现窗口计算，否则起不到任何作用。
5 窗口函数

窗口函数界说了要对窗口中网络的数据做的计算操作，根据处置处罚的方式可以分为两类：增量聚合函数和全窗口函数。下面我们来进行分别讲解。
5.1 增量聚合函数（ReduceFunction / AggregateFunction）

窗口将数据网络起来，最基本的处置处罚操作当然就是进行聚合。我们可以每来一个数据就在之前结果上聚合一次，这就是“增量聚合”。
典型的增量聚合函数有两个：ReduceFunction和AggregateFunction。
1）归约函数（ReduceFunction）

代码示例：

public class WindowReduceDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .keyBy(r -> r.getId()) // 设置滚动事件时间窗口 .window(TumblingProcessingTimeWindows.of(Time.seconds(10))) .reduce(new ReduceFunction<WaterSensor>() { @Override public WaterSensor reduce(WaterSensor value1, WaterSensor value2) throws Exception { System.out.println("调用reduce方法，之前的结果:"+value1 + ",现在来的数据:"+value2); return new WaterSensor(value1.getId(), System.currentTimeMillis(),value1.getVc()+value2.getVc()); } }) .print(); env.execute();
}}

复制代码

2）聚合函数（AggregateFunction）

ReduceFunction可以办理大多数归约聚合的问题，但是这个接口有一个限定，就是聚合状态的范例、输出结果的范例都必须和输入数据范例一样。
Flink Window API中的aggregate就突破了这个限定，可以界说更加灵活的窗口聚合操作。这个方法需要传入一个AggregateFunction的实现类作为参数。
AggregateFunction可以看作是ReduceFunction的通用版本，这里有三种范例：输入范例（IN）、累加器范例（ACC）和输出范例（OUT）。输入范例IN就是输入流中元素的数据范例；累加器范例ACC则是我们进行聚合的中心状态范例；而输出范例当然就是终极计算结果的范例了。
接口中有四个方法：
createAccumulator()：创建一个累加器，这就是为聚合创建了一个初始状态，每个聚合任务只会调用一次。
add()：将输入的元素添加到累加器中。
getResult()：从累加器中提取聚合的输出结果。
merge()：合并两个累加器，并将合并后的状态作为一个累加器返回。
所以可以看到，AggregateFunction的工作原理是：起首调用createAccumulator()为任务初始化一个状态（累加器）；而后每来一个数据就调用一次add()方法，对数据进行聚合，得到的结果生存在状态中；比及了窗口需要输出时，再调用getResult()方法得到计算结果。很显着，与ReduceFunction雷同，AggregateFunction也是增量式的聚合；而由于输入、中心状态、输出的范例可以不同，使得应用更加灵活方便。
代码实现如下：

public class WindowAggregateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); KeyedStream<WaterSensor, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getId()); // 1. 窗口分配器 WindowedStream<WaterSensor, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10))); SingleOutputStreamOperator<String> aggregate = sensorWS .aggregate( new AggregateFunction<WaterSensor, Integer, String>() { @Override public Integer createAccumulator() { System.out.println("创建累加器"); return 0; } @Override public Integer add(WaterSensor value, Integer accumulator) { System.out.println("调用add方法,value="+value); return accumulator + value.getVc(); } @Override public String getResult(Integer accumulator) { System.out.println("调用getResult方法"); return accumulator.toString(); } @Override public Integer merge(Integer a, Integer b) { System.out.println("调用merge方法"); return null; } } ); aggregate.print(); env.execute();
}}

复制代码

别的，Flink也为窗口的聚合提供了一系列预界说的简朴聚合方法，可以直接基于WindowedStream调用。重要包括.sum()/max()/maxBy()/min()/minBy()，与KeyedStream的简朴聚合非常相似。它们的底层，实在都是通过AggregateFunction来实现的。
5.2 全窗口函数（full window functions）

有些场景下，我们要做的计算必须基于全部的数据才有效，这时做增量聚合就没什么意义了；别的，输出的结果有可能要包罗上下文中的一些信息（比如窗口的起始时间），这是增量聚合函数做不到的。
所以，我们还需要有更丰富的窗口计算方式。窗口操作中的另一大类就是全窗口函数。与增量聚合函数不同，全窗口函数需要先网络窗口中的数据，并在内部缓存起来，比及窗口要输出结果的时间再取出数据进行计算。
在Flink中，全窗口函数也有两种：WindowFunction和ProcessWindowFunction。
1）窗口函数（WindowFunction）

WindowFunction字面上就是“窗口函数”，它实在是老版本的通用窗口函数接口。我们可以基于WindowedStream调用.apply()方法，传入一个WindowFunction的实现类。

stream
.keyBy(<key selector>)
.window(<window assigner>)
.apply(new MyWindowFunction());

复制代码

这个类中可以获取到包罗窗口所有数据的可迭代聚集（Iterable），还可以拿到窗口（Window）自己的信息。
不外WindowFunction能提供的上下文信息较少，也没有更高级的功能。究竟上，它的作用可以被ProcessWindowFunction全覆盖，所以之后可能会逐渐弃用。
2）处置处罚窗口函数（ProcessWindowFunction）

ProcessWindowFunction是Window API中最底层的通用窗口函数接口。之所以说它“最底层”，是由于除了可以拿到窗口中的所有数据之外，ProcessWindowFunction还可以获取到一个“上下文对象”（Context）。这个上下文对象非常强大，不仅能够获取窗口信息，还可以访问当前的时间和状态信息。这里的时间就包括了处置处罚时间（processing time）和事件时间水位线（event time watermark）。这就使得ProcessWindowFunction更加灵活、功能更加丰富，实在就是一个增强版的WindowFunction。究竟上，ProcessWindowFunction是Flink底层API——处置处罚函数（process function）中的一员，关于处置处罚函数我们会在后续章节展开讲解。
代码实现如下：

public class WindowProcessDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); KeyedStream<WaterSensor, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getId()); // 1. 窗口分配器 WindowedStream<WaterSensor, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10))); SingleOutputStreamOperator<String> process = sensorWS .process( new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() { @Override public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception { long count = elements.spliterator().estimateSize(); long windowStartTs = context.window().getStart(); long windowEndTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(windowStartTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(windowEndTs, "yyyy-MM-dd HH:mm:ss.SSS"); out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } } ); process.print(); env.execute();
}}

复制代码

5.3 增量聚合和全窗口函数的联合使用

在实际应用中，我们往往希望兼具这两者的优点，把它们联合在一起使用。Flink的Window API就给我们实现了如许的用法。
我们之前在调用WindowedStream的.reduce()和.aggregate()方法时，只是简朴地直接传入了一个ReduceFunction或AggregateFunction进行增量聚合。除此之外，实在还可以传入第二个参数：一个全窗口函数，可以是WindowFunction大概ProcessWindowFunction。

// ReduceFunction与WindowFunction结合
public <R> SingleOutputStreamOperator<R> reduce(
ReduceFunction<T> reduceFunction，WindowFunction<T，R，K，W> function)
// ReduceFunction与ProcessWindowFunction结合
public <R> SingleOutputStreamOperator<R> reduce(
ReduceFunction<T> reduceFunction，ProcessWindowFunction<T，R，K，W> function)
// AggregateFunction与WindowFunction结合
public <ACC，V，R> SingleOutputStreamOperator<R> aggregate(
AggregateFunction<T，ACC，V> aggFunction，WindowFunction<V，R，K，W> windowFunction)
// AggregateFunction与ProcessWindowFunction结合
public <ACC，V，R> SingleOutputStreamOperator<R> aggregate(
AggregateFunction<T，ACC，V> aggFunction,
ProcessWindowFunction<V，R，K，W> windowFunction)

复制代码

如许调用的处置处罚机制是：基于第一个参数（增量聚合函数）来处置处罚窗口数据，每来一个数据就做一次聚合；比及窗口需要触发计算时，则调用第二个参数（全窗口函数）的处置处罚逻辑输出结果。需要留意的是，这里的全窗口函数就不再缓存所有数据了，而是直接将增量聚合函数的结果拿来当作了Iterable范例的输入。
具体实现代码如下：

public class WindowAggregateAndProcessDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); KeyedStream<WaterSensor, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getId()); // 1. 窗口分配器 WindowedStream<WaterSensor, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10))); // 2. 窗口函数： /** * 增量聚合 Aggregate + 全窗口 process * 1、增量聚合函数处置处罚数据：来一条计算一条 * 2、窗口触发时，增量聚合的结果（只有一条）传递给全窗口函数 * 3、颠末全窗口函数的处置处罚包装后，输出 * * 联合两者的优点： * 1、增量聚合：来一条计算一条，存储中心的计算结果，占用的空间少 * 2、全窗口函数：可以通过上下文实现灵活的功能 */// sensorWS.reduce() //也可以传两个 SingleOutputStreamOperator<String> result = sensorWS.aggregate( new MyAgg(), new MyProcess() ); result.print(); env.execute();
} public static class MyAgg implements AggregateFunction<WaterSensor, Integer, String>{ @Override public Integer createAccumulator() { System.out.println("创建累加器"); return 0; } @Override public Integer add(WaterSensor value, Integer accumulator) { System.out.println("调用add方法,value="+value); return accumulator + value.getVc(); } @Override public String getResult(Integer accumulator) { System.out.println("调用getResult方法"); return accumulator.toString(); } @Override public Integer merge(Integer a, Integer b) { System.out.println("调用merge方法"); return null; } } // 全窗口函数的输入范例 = 增量聚合函数的输出范例 public static class MyProcess extends ProcessWindowFunction<String,String,String,TimeWindow>{ @Override public void process(String s, Context context, Iterable<String> elements, Collector<String> out) throws Exception { long startTs = context.window().getStart(); long endTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS"); long count = elements.spliterator().estimateSize(); out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } }}

复制代码

这里我们为了方便处置处罚，单独界说了一个POJO类UrlViewCount来表现聚合输出结果的数据范例，包罗了url、浏览量以及窗口的起始结束时间。用一个AggregateFunction来实现增量聚合，每来一个数据就计数加一；得到的结果交给ProcessWindowFunction，联合窗口信息包装成我们想要的UrlViewCount，终极输出统计结果。
6 其他API

对于一个窗口算子而言，窗口分配器和窗口函数是必不可少的。除此之外，Flink还提供了其他一些可选的API，让我们可以更加灵活地控制窗口举动。
6.1 触发器（Trigger）

触发器重要是用来控制窗口什么时间触发计算。所谓的“触发计算”，本质上就是执行窗口函数，所以可以以为是计算得到结果并输出的过程。
基于WindowedStream调用.trigger()方法，就可以传入一个自界说的窗口触发器（Trigger）。

stream.keyBy(...)
.window(...)
.trigger(new MyTrigger())

复制代码

6.2 移除器（Evictor）

移除器重要用来界说移除某些数据的逻辑。基于WindowedStream调用.evictor()方法，就可以传入一个自界说的移除器（Evictor）。Evictor是一个接口，不同的窗口范例都有各自预实现的移除器。

stream.keyBy(...)
.window(...)
.evictor(new MyEvictor())

复制代码

B时间语义

1 Flink中的时间语义

2 哪种时间语义更重要

1）从《星球大战》说起
为了更加清晰地说明两种语义的区别，我们来举一个非常经典的例子：影戏《星球大战》。

如上图所示，我们会发现，看影戏实在就是处置处罚影片中数据的过程，所以影片的上映时间就相当于“处置处罚时间”；而影片的数据就是所描述的故事，它所发生的配景时间就相当于“事件时间”。两种时间语义都有各自的用途，适用于不同的场景。
2）数据处置处罚系统中的时间语义
在实际应用中，事件时间语义会更为常见。一般情况下，业务日志数据中都会记载数据天生的时间戳（timestamp），它就可以作为事件时间的判断基础。
在Flink中，由于处置处罚时间比较简朴，早期版本默认的时间语义是处置处罚时间；而考虑到事件时间在实际应用中更为广泛，从Flink1.12版本开始，Flink已经将事件时间作为默认的时间语义了。
C水位线（Watermark）

1 事件时间和窗口

2 什么是水位线

在Flink中，用来衡量事件时间进展的标志，就被称作“水位线”（Watermark）。
具体实现上，水位线可以看作一条特殊的数据记载，它是插入到数据流中的一个标志点，重要内容就是一个时间戳，用来指示当前的事件时间。而它插入流中的位置，就应该是在某个数据到来之后；如许就可以从这个数据中提取时间戳，作为当前水位线的时间戳了。

3 水位线和窗口的工作原理

留意：Flink中窗口并不是静态准备好的，而是动态创建——当有落在这个窗口区间范围的数据到达时，才创建对应的窗口。别的，这里我们以为到达窗口结束时间时，窗口就触发计算并关闭，究竟上“触发计算”和“窗口关闭”两个举动也可以分开，这部门内容我们会在背面详述。
4 天生水位线

4.1 天生水位线的总体原则

完美的水位线是“绝对正确”的，也就是一个水位线一旦出现，就表现这个时间之前的数据已经全部到齐、之后再也不会出现了。不外假如要包管绝对正确，就必须等足够长的时间，这会带来更高的延迟。
假如我们希望处置处罚得更快、实时性更强，那么可以将水位线延迟设得低一些。这种情况下，可能很多迟到数据会在水位线之后才到达，就会导致窗口遗漏数据，计算结果不正确。当然，假如我们对正确性完全不考虑、一味地追求处置处罚速率，可以直接使用处置处罚时间语义，这在理论上可以得到最低的延迟。
所以Flink中的水位线，实在是流处置处罚中对低延迟和结果正确性的一个权衡机制，而且把控制的权力交给了程序员，我们可以在代码中界说水位线的天生策略。
4.2 水位线天生策略

在Flink的DataStream API中，有一个单独用于天生水位线的方法：.assignTimestampsAndWatermarks()，它重要用来为流中的数据分配时间戳，并天生水位线来指示事件时间。具体使用如下：

DataStream<Event> stream = env.addSource(new ClickSource());
DataStream<Event> withTimestampsAndWatermarks =
stream.assignTimestampsAndWatermarks(<watermark strategy>);
说明：WatermarkStrategy作为参数，这就是所谓的“水位线生成策略”。WatermarkStrategy是一个接口，该接口中包含了一个“时间戳分配器”TimestampAssigner和一个“水位线生成器”WatermarkGenerator。
public interface WatermarkStrategy<T>
extends TimestampAssignerSupplier<T>,
WatermarkGeneratorSupplier<T>{
// 负责从流中数据元素的某个字段中提取时间戳，并分配给元素。时间戳的分配是生成水位线的基础。
@Override
TimestampAssigner<T> createTimestampAssigner(TimestampAssignerSupplier.Context context);
// 主要负责按照既定的方式，基于时间戳生成水位线
@Override
WatermarkGenerator<T> createWatermarkGenerator(WatermarkGeneratorSupplier.Context context);
}

复制代码

4.3 Flink内置水位线

1）有序流中内置水位线设置
对于有序流，重要特点就是时间戳单调增长，所以永久不会出现迟到数据的问题。这是周期性天生水位线的最简朴的场景，直接调用WatermarkStrategy.forMonotonousTimestamps()方法就可以实现。

public class WatermarkMonoDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); // TODO 1.界说Watermark策略 WatermarkStrategy<WaterSensor> watermarkStrategy = WatermarkStrategy // 1.1 指定watermark天生：升序的watermark，没有等待时间 .<WaterSensor>forMonotonousTimestamps() // 1.2 指定时间戳分配器，从数据中提取 .withTimestampAssigner(new SerializableTimestampAssigner<WaterSensor>() { @Override public long extractTimestamp(WaterSensor element, long recordTimestamp) { // 返回的时间戳，要毫秒 System.out.println("数据=" + element + ",recordTs=" + recordTimestamp); return element.getTs() * 1000L; } }); // TODO 2. 指定 watermark策略 SingleOutputStreamOperator<WaterSensor> sensorDSwithWatermark = sensorDS.assignTimestampsAndWatermarks(watermarkStrategy); sensorDSwithWatermark.keyBy(sensor -> sensor.getId()) // TODO 3.使用事件时间语义的窗口 .window(TumblingEventTimeWindows.of(Time.seconds(10))) .process( new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() { @Override public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception { long startTs = context.window().getStart(); long endTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS"); long count = elements.spliterator().estimateSize(); out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } } ) .print(); env.execute();
}}

复制代码

2）乱序流中内置水位线设置
由于乱序流中需要等待迟到数据到齐，所以必须设置一个固定量的延迟时间。这时天生水位线的时间戳，就是当前数据流中最大的时间戳减去延迟的结果，相当于把表调慢，当前时钟会滞后于数据的最大时间戳。调用WatermarkStrategy. forBoundedOutOfOrderness()方法就可以实现。这个方法需要传入一个maxOutOfOrderness参数，表现“最大乱序程度”，它表现数据流中乱序数据时间戳的最大差值；假如我们能确定乱序程度，那么设置对应时间长度的延迟，就可以比及所有的乱序数据了。

public class WatermarkOutOfOrdernessDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); // TODO 1.界说Watermark策略 WatermarkStrategy<WaterSensor> watermarkStrategy = WatermarkStrategy // 1.1 指定watermark天生：乱序的，等待3s .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) // 1.2 指定时间戳分配器，从数据中提取 .withTimestampAssigner( (element, recordTimestamp) -> { // 返回的时间戳，要毫秒 System.out.println("数据=" + element + ",recordTs=" + recordTimestamp); return element.getTs() * 1000L; }); // TODO 2. 指定 watermark策略 SingleOutputStreamOperator<WaterSensor> sensorDSwithWatermark = sensorDS.assignTimestampsAndWatermarks(watermarkStrategy); sensorDSwithWatermark.keyBy(sensor -> sensor.getId()) // TODO 3.使用事件时间语义的窗口 .window(TumblingEventTimeWindows.of(Time.seconds(10))) .process( new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() { @Override public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception { long startTs = context.window().getStart(); long endTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS"); long count = elements.spliterator().estimateSize(); out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } } ) .print(); env.execute();
}}

复制代码

4.4 自界说水位线天生器

1）周期性水位线天生器（Periodic Generator）
周期性天生器一般是通过onEvent()观察判断输入的事件，而在onPeriodicEmit()里发出水位线。
下面是一段自界说周期性天生水位线的代码：

import com.atguigu.bean.Event;import org.apache.flink.api.common.eventtime.*;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;// 自界说水位线的产生public class CustomPeriodicWatermarkExample { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env .addSource(new ClickSource()) .assignTimestampsAndWatermarks(new CustomWatermarkStrategy()) .print(); env.execute();
} public static class CustomWatermarkStrategy implements WatermarkStrategy<Event> { @Override public TimestampAssigner<Event> createTimestampAssigner(TimestampAssignerSupplier.Context context) { return new SerializableTimestampAssigner<Event>() { @Override public long extractTimestamp(Event element，long recordTimestamp) { return element.timestamp; // 告诉程序数据源里的时间戳是哪一个字段 } }; } @Override public WatermarkGenerator<Event> createWatermarkGenerator(WatermarkGeneratorSupplier.Context context) { return new CustomBoundedOutOfOrdernessGenerator(); } } public static class CustomBoundedOutOfOrdernessGenerator implements WatermarkGenerator<Event> { private Long delayTime = 5000L; // 延迟时间 private Long maxTs = -Long.MAX_VALUE + delayTime + 1L; // 观察到的最大时间戳 @Override public void onEvent(Event event，long eventTimestamp，WatermarkOutput output) { // 每来一条数据就调用一次 maxTs = Math.max(event.timestamp，maxTs); // 更新最大时间戳 } @Override public void onPeriodicEmit(WatermarkOutput output) { // 发射水位线，默认200ms调用一次 output.emitWatermark(new Watermark(maxTs - delayTime - 1L)); } }}

复制代码

我们在onPeriodicEmit()里调用output.emitWatermark()，就可以发出水位线了；这个方法由系统框架周期性地调用，默认200ms一次。
假如想修改默认周期时间，可以通过下面方法修改。例如：修改为400ms
env.getConfig().setAutoWatermarkInterval(400L);
2）断点式水位线天生器（Punctuated Generator）
断点式天生器会不停地检测onEvent()中的事件，当发现带有水位线信息的事件时，就立即发出水位线。我们把发射水位线的逻辑写在onEvent方法当中即可。
3）在数据源中发送水位线
我们也可以在自界说的数据源中抽取事件时间，然后发送水位线。这里要留意的是，在自界说数据源中发送了水位线以后，就不能再在程序中使用assignTimestampsAndWatermarks方法来天生水位线了。在自界说数据源中天生水位线和在程序中使用assignTimestampsAndWatermarks方法天生水位线二者只能取其一。示例程序如下：

env.fromSource(
kafkaSource, WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3)), "kafkasource"
)

复制代码

5 水位线的传递

在流处置处罚中，上游任务处置处罚完水位线、时钟改变之后，要把当前的水位线再次发出，广播给所有的下游子任务。而当一个任务吸收到多个上游并行任务传递来的水位线时，应该以最小的谁人作为当前任务的事件时钟。
水位线在上下游任务之间的传递，非常奇妙地制止了分布式系统中没有同一时钟的问题，每个任务都以“处置处罚完之前所有数据”为尺度来确定自己的时钟。
案例：6.3.4.3 中乱序流的watermark，将并行度设为2，观察征象。

在多个上游并行任务中，假如有其中一个没有数据，由于当前Task是以最小的谁人作为当前任务的事件时钟，就会导致当前Task的水位线无法推进，就可能导致窗口无法触发。这时间可以设置空闲等待。
用5.3.4.6中的自界说分区器，只输入奇数来模拟部门subtask无数据，代码如下：

public class WatermarkIdlenessDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); // 自界说分区器：数据%分区数，只输入奇数，都只会去往map的一个子任务 SingleOutputStreamOperator<Integer> socketDS = env .socketTextStream("hadoop102", 7777) .partitionCustom(new MyPartitioner(), r -> r) .map(r -> Integer.parseInt(r)) .assignTimestampsAndWatermarks( WatermarkStrategy .<Integer>forMonotonousTimestamps() .withTimestampAssigner((r, ts) -> r * 1000L) .withIdleness(Duration.ofSeconds(5)) //空闲等待5s ); // 分成两组：奇数一组，偶数一组，开10s的事件时间滚动窗口 socketDS .keyBy(r -> r % 2) .window(TumblingEventTimeWindows.of(Time.seconds(10))) .process(new ProcessWindowFunction<Integer, String, Integer, TimeWindow>() { @Override public void process(Integer integer, Context context, Iterable<Integer> elements, Collector<String> out) throws Exception { long startTs = context.window().getStart(); long endTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS"); long count = elements.spliterator().estimateSize(); out.collect("key=" + integer + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } }) .print(); env.execute();
}}

复制代码

6 迟到数据的处置处罚

6.1 推迟水印推进

在水印产生时，设置一个乱序容忍度，推迟系统时间的推进，包管窗口计算被延迟执行，为乱序的数据夺取更多的时间进入窗口。

WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(10));

复制代码

6.2 设置窗口延迟关闭

Flink的窗口，也允许迟到数据。当触发了窗口计算后，会先计算当前的结果，但是此时并不会关闭窗口。
以后每来一条迟到数据，就触发一次这条数据所在窗口计算(增量计算)。直到wartermark 高出了窗口结束时间+推迟时间，此时窗口会真正关闭。

.window(TumblingEventTimeWindows.of(Time.seconds(5)))
.allowedLateness(Time.seconds(3))

复制代码

留意:
允许迟到只能运用在event time上
6.3 使用侧流吸收迟到的数据

.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
.allowedLateness(Time.seconds(3))
.sideOutputLateData(lateWS)

复制代码

完备案例代码如下：

public class WatermarkLateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); WatermarkStrategy<WaterSensor> watermarkStrategy = WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, recordTimestamp) -> element.getTs() * 1000L); SingleOutputStreamOperator<WaterSensor> sensorDSwithWatermark = sensorDS.assignTimestampsAndWatermarks(watermarkStrategy); OutputTag<WaterSensor> lateTag = new OutputTag<>("late-data", Types.POJO(WaterSensor.class)); SingleOutputStreamOperator<String> process = sensorDSwithWatermark.keyBy(sensor -> sensor.getId()) .window(TumblingEventTimeWindows.of(Time.seconds(10))) .allowedLateness(Time.seconds(2)) // 推迟2s关窗 .sideOutputLateData(lateTag) // 关窗后的迟到数据，放入侧输出流 .process( new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() { @Override public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception { long startTs = context.window().getStart(); long endTs = context.window().getEnd(); String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS"); String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS"); long count = elements.spliterator().estimateSize(); out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包罗" + count + "条数据===>" + elements.toString()); } } ); process.print(); // 从主流获取侧输出流，打印 process.getSideOutput(lateTag).printToErr("关窗后的迟到数据"); env.execute();
}}

复制代码

D基于时间的合流——双流联结（Join）!!!

可以发现，根据某个key合并两条流，与关系型数据库中表的join操作非常相近。究竟上，Flink中两条流的connect操作，就可以通过keyBy指定键进行分组后合并，实现了雷同于SQL中的join操作；别的connect支持处置处罚函数，可以使用自界说实现各种需求，实在已经能够处置处罚双流join的大多数场景。
不外处置处罚函数是底层接口，所以尽管connect能做的事情多，但在一些具体应用场景下还是显得太过抽象了。比如，假如我们希望统计固定时间内两条流数据的匹配情况，那就需要自界说来实现——实在这完全可以用窗口（window）来表现。为了更方便地实现基于时间的合流操作，Flink的DataStrema API提供了内置的join算子。
1 窗口联结（Window Join）

Flink为基于一段时间的双流合并专门提供了一个窗口联结算子，可以界说时间窗口，并将两条流中共享一个公共键（key）的数据放在窗口中进行配对处置处罚。
1）窗口联结的调用

窗口联结在代码中的实现，起首需要调用DataStream的.join()方法来合并两条流，得到一个JoinedStreams；接着通过.where()和.equalTo()方法指定两条流中联结的key；然后通过.window()开窗口，并调用.apply()传入联结窗口函数进行处置处罚计算。通用调用形式如下：

stream1.join(stream2)
.where(<KeySelector>)
.equalTo(<KeySelector>)
.window(<WindowAssigner>)
.apply(<JoinFunction>)

复制代码

上面代码中.where()的参数是键选择器（KeySelector），用来指定第一条流中的key；而.equalTo()传入的KeySelector则指定了第二条流中的key。两者雷同的元素，假如在同一窗口中，就可以匹配起来，并通过一个“联结函数”（JoinFunction）进行处置处罚了。
这里.window()传入的就是窗口分配器，之前讲到的三种时间窗口都可以用在这里：滚动窗口（tumbling window）、滑动窗口（sliding window）和会话窗口（session window）。
而背面调用.apply()可以看作实现了一个特殊的窗口函数。留意这里只能调用.apply()，没有其他替代的方法。
传入的JoinFunction也是一个函数类接口，使用时需要实现内部的.join()方法。这个方法有两个参数，分别表现两条流中成对匹配的数据。
实在仔细观察可以发现，窗口join的调用语法和我们认识的SQL中表的join非常相似：

SELECT * FROM table1 t1, table2 t2 WHERE t1.id = t2.id;

复制代码

这句SQL中where子句的表达，等价于inner join … on，所以自己表现的是两张表基于id的“内连接”（inner join）。而Flink中的window join，同样雷同于inner join。也就是说，最后处置处罚输出的，只有两条流中数据按key配对成功的那些；假如某个窗口中一条流的数据没有任何另一条流的数据匹配，那么就不会调用JoinFunction的.join()方法，也就没有任何输出了。
2）窗口联结实例
代码实现：

public class WindowJoinDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<Tuple2<String, Integer>> ds1 = env .fromElements( Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4) ) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple2<String, Integer>>forMonotonousTimestamps() .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); SingleOutputStreamOperator<Tuple3<String, Integer,Integer>> ds2 = env .fromElements( Tuple3.of("a", 1,1), Tuple3.of("a", 11,1), Tuple3.of("b", 2,1), Tuple3.of("b", 12,1), Tuple3.of("c", 14,1), Tuple3.of("d", 15,1) ) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple3<String, Integer,Integer>>forMonotonousTimestamps() .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); // TODO window join // 1. 落在同一个时间窗口范围内才能匹配 // 2. 根据keyby的key，来进行匹配关联 // 3. 只能拿到匹配上的数据，雷同有固定时间范围的inner join DataStream<String> join = ds1.join(ds2) .where(r1 -> r1.f0) // ds1的keyby .equalTo(r2 -> r2.f0) // ds2的keyby .window(TumblingEventTimeWindows.of(Time.seconds(10))) .apply(new JoinFunction<Tuple2<String, Integer>, Tuple3<String, Integer, Integer>, String>() { /** * 关联上的数据，调用join方法 * @param first ds1的数据 * @param second ds2的数据 * @return * @throws Exception */ @Override public String join(Tuple2<String, Integer> first, Tuple3<String, Integer, Integer> second) throws Exception { return first + "<----->" + second; } }); join.print(); env.execute();
}}

复制代码

2 隔断联结（Interval Join）

在有些场景下，我们要处置处罚的时间隔断可能并不是固定的。这时显然不应该用滚动窗口或滑动窗口来处置处罚——由于匹配的两个数据有可能刚好“卡在”窗口边沿两侧，于是窗口内就都没有匹配了；会话窗口固然时间不固定，但也显着不适合这个场景。基于时间的窗口联结已经无能为力了。
为了应对如许的需求，Flink提供了一种叫作“隔断联结”（interval join）的合流操作。顾名思义，隔断联结的思路就是针对一条流的每个数据，开辟出其时间戳前后的一段时间隔断，看这期间是否有来自另一条流的数据匹配。
1）隔断联结的原理

隔断联结具体的界说方式是，我们给定两个时间点，分别叫作隔断的“上界”（upperBound）和“下界”（lowerBound）；于是对于一条流（不妨叫作A）中的任意一个数据元素a，就可以开辟一段时间隔断：[a.timestamp + lowerBound, a.timestamp + upperBound],即以a的时间戳为中心，下至下界点、上至上界点的一个闭区间：我们就把这段时间作为可以匹配另一条流数据的“窗口”范围。所以对于另一条流（不妨叫B）中的数据元素b，假如它的时间戳落在了这个区间范围内，a和b就可以成功配对，进而进行计算输出结果。所以匹配的条件为：

a.timestamp + lowerBound <= b.timestamp <= a.timestamp + upperBound

复制代码

这里需要留意，做隔断联结的两条流A和B，也必须基于雷同的key；下界lowerBound应该小于即是上界upperBound，两者都可正可负；隔断联结目前只支持事件时间语义。
如下图所示，我们可以清楚地看到隔断联结的方式：

下方的流A去隔断联结上方的流B，所以基于A的每个数据元素，都可以开辟一个隔断区间。我们这里设置下界为-2毫秒，上界为1毫秒。于是对于时间戳为2的A中元素，它的可匹配区间就是[0, 3],流B中有时间戳为0、1的两个元素落在这个范围内，所以就可以得到匹配数据对（2, 0）和（2, 1）。同样地，A中时间戳为3的元素，可匹配区间为[1, 4]，B中只有时间戳为1的一个数据可以匹配，于是得到匹配数据对（3, 1）。
所以我们可以看到，隔断联结同样是一种内连接（inner join）。与窗口联结不同的是，interval join做匹配的时间段是基于流中数据的，所以并不确定；而且流B中的数据可以不但在一个区间内被匹配。
2）隔断联结的调用

隔断联结在代码中，是基于KeyedStream的联结（join）操作。DataStream在keyBy得到KeyedStream之后，可以调用.intervalJoin()来合并两条流，传入的参数同样是一个KeyedStream，两者的key范例应该同等；得到的是一个IntervalJoin范例。后续的操作同样是完全固定的：先通过.between()方法指定隔断的上下界，再调用.process()方法，界说对匹配数据对的处置处罚操作。调用.process()需要传入一个处置处罚函数，这是处置处罚函数眷属的最后一员：“处置处罚联结函数”ProcessJoinFunction。
通用调用形式如下：

stream1
.keyBy(<KeySelector>)
.intervalJoin(stream2.keyBy(<KeySelector>))
.between(Time.milliseconds(-2), Time.milliseconds(1))
.process (new ProcessJoinFunction<Integer, Integer, String(){
@Override
public void processElement(Integer left, Integer right, Context ctx, Collector<String> out) {
out.collect(left + "," + right);
}
});

复制代码

可以看到，抽象类ProcessJoinFunction就像是ProcessFunction和JoinFunction的联合，内部同样有一个抽象方法.processElement()。与其他处置处罚函数不同的是，它多了一个参数，这自然是由于有来自两条流的数据。参数中left指的就是第一条流中的数据，right则是第二条流中与它匹配的数据。每当检测到一组匹配，就会调用这里的.processElement()方法，经处置处罚转换之后输出结果。
3）隔断联结实例

案例需求：在电商网站中，某些用户举动往往会有短时间内的强关联。我们这里举一个例子，我们有两条流，一条是下订单的流，一条是浏览数据的流。我们可以针对同一个用户，来做如许一个联结。也就是使用一个用户的下订单的事件和这个用户的最近非常钟的浏览数据进行一个联结查询。
（1）代码实现：正常使用

public class IntervalJoinDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<Tuple2<String, Integer>> ds1 = env .fromElements( Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4) ) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple2<String, Integer>>forMonotonousTimestamps() .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); SingleOutputStreamOperator<Tuple3<String, Integer, Integer>> ds2 = env .fromElements( Tuple3.of("a", 1, 1), Tuple3.of("a", 11, 1), Tuple3.of("b", 2, 1), Tuple3.of("b", 12, 1), Tuple3.of("c", 14, 1), Tuple3.of("d", 15, 1) ) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple3<String, Integer, Integer>>forMonotonousTimestamps() .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); // TODO interval join //1. 分别做keyby，key实在就是关联条件 KeyedStream<Tuple2<String, Integer>, String> ks1 = ds1.keyBy(r1 -> r1.f0); KeyedStream<Tuple3<String, Integer, Integer>, String> ks2 = ds2.keyBy(r2 -> r2.f0); //2. 调用 interval join ks1.intervalJoin(ks2) .between(Time.seconds(-2), Time.seconds(2)) .process( new ProcessJoinFunction<Tuple2<String, Integer>, Tuple3<String, Integer, Integer>, String>() { /** * 两条流的数据匹配上，才会调用这个方法 * @param left ks1的数据 * @param right ks2的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement(Tuple2<String, Integer> left, Tuple3<String, Integer, Integer> right, Context ctx, Collector<String> out) throws Exception { // 进入这个方法，是关联上的数据 out.collect(left + "<------>" + right); } }) .print(); env.execute();
}}

复制代码

（2）代码实现：处置处罚迟到数据

public class IntervalJoinWithLateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<Tuple2<String, Integer>> ds1 = env .socketTextStream("hadoop102", 7777) .map(new MapFunction<String, Tuple2<String, Integer>>() { @Override public Tuple2<String, Integer> map(String value) throws Exception { String[] datas = value.split(","); return Tuple2.of(datas[0], Integer.valueOf(datas[1])); } }) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple2<String, Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); SingleOutputStreamOperator<Tuple3<String, Integer, Integer>> ds2 = env .socketTextStream("hadoop102", 8888) .map(new MapFunction<String, Tuple3<String, Integer, Integer>>() { @Override public Tuple3<String, Integer, Integer> map(String value) throws Exception { String[] datas = value.split(","); return Tuple3.of(datas[0], Integer.valueOf(datas[1]), Integer.valueOf(datas[2])); } }) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple3<String, Integer, Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); /** * TODO Interval join * 1、只支持事件时间 * 2、指定上界、下界的偏移，负号代表时间往前，正号代表时间往后 * 3、process中，只能处置处罚 join上的数据 * 4、两条流关联后的watermark，以两条流中最小的为准 * 5、假如当前数据的事件时间 < 当前的watermark，就是迟到数据，主流的process不处置处罚 * => between后，可以指定将左流或右流的迟到数据放入侧输出流 */ //1. 分别做keyby，key实在就是关联条件 KeyedStream<Tuple2<String, Integer>, String> ks1 = ds1.keyBy(r1 -> r1.f0); KeyedStream<Tuple3<String, Integer, Integer>, String> ks2 = ds2.keyBy(r2 -> r2.f0); //2. 调用 interval join OutputTag<Tuple2<String, Integer>> ks1LateTag = new OutputTag<>("ks1-late", Types.TUPLE(Types.STRING, Types.INT)); OutputTag<Tuple3<String, Integer, Integer>> ks2LateTag = new OutputTag<>("ks2-late", Types.TUPLE(Types.STRING, Types.INT, Types.INT)); SingleOutputStreamOperator<String> process = ks1.intervalJoin(ks2) .between(Time.seconds(-2), Time.seconds(2)) .sideOutputLeftLateData(ks1LateTag) // 将 ks1的迟到数据，放入侧输出流 .sideOutputRightLateData(ks2LateTag) // 将 ks2的迟到数据，放入侧输出流 .process( new ProcessJoinFunction<Tuple2<String, Integer>, Tuple3<String, Integer, Integer>, String>() { /** * 两条流的数据匹配上，才会调用这个方法 * @param left ks1的数据 * @param right ks2的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement(Tuple2<String, Integer> left, Tuple3<String, Integer, Integer> right, Context ctx, Collector<String> out) throws Exception { // 进入这个方法，是关联上的数据 out.collect(left + "<------>" + right); } }); process.print("主流"); process.getSideOutput(ks1LateTag).printToErr("ks1迟到数据"); process.getSideOutput(ks2LateTag).printToErr("ks2迟到数据"); env.execute();
}}

复制代码

小总结

Flink 是流式的、实时的计算引擎。
上面一句话就有两个概念，一个是流式，一个是实时。
流式：就是数据源源不停的流进来，也就是数据没有边界，但是我们计算的时间必须在一个有边界的范围内进行，所以这内里就有一个问题，边界怎么确定？无非就两种方式，根据时间段大概数据量进行确定，根据时间段就是每隔多长时间就分别一个边界，根据数据量就是每来多少条数据分别一个边界，Flink 中就是这么分别边界的，本文会详细讲解。
实时：就是数据发送过来之后立马就进行相干的计算，然后将结果输出。这里的计算有两种：
一种是只有边界内的数据进行计算，这种好理解，比如统计每个用户最近五分钟内浏览的新闻数目，就可以取最近五分钟内的所有数据，然后根据每个用户分组，统计新闻的总数。
另一种是边界内数据与外部数据进行关联计算，比如：统计最近五分钟内浏览新闻的用户都是来自哪些地域，这种就需要将五分钟内浏览新闻的用户信息与 hive 中的地域维表进行关联，然后在进行相干计算。
本节所讲的 Flink 内容就是围绕以上概念进行详细剖析的！
1. Time

在Flink中，假如以时间段分别边界的话，那么时间就是一个极其重要的字段。
Flink中的时间有三种范例，如下图所示：

Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记载自己的天生时间，Flink通过时间戳分配器访问事件时间戳。
Ingestion Time：是数据进入Flink的时间。
Processing Time：是每一个执行基于时间操作的算子的本地系统时间，与呆板相干，默认的时间属性就是Processing Time。
例如，一条日志进入Flink的时间为2021-01-22 10:00:00.123，到达Window的系统时间为2021-01-22 10:00:01.234，日志的内容如下：
2021-01-06 18:37:15.624 INFO Fail over to rm2
对于业务来说，要统计1min内的故障日志个数，哪个时间是最有意义的？—— eventTime，由于我们要根据日志的天生时间进行统计。
2. Window

Window，即窗口，我们前面不停提到的边界就是这里的Window(窗口)。
官方解释：流式计算是一种被设计用于处置处罚无限数据集的数据处置处罚引擎，而无限数据集是指一种不停增长的本质上无限的数据集，而window是一种切割无限数据为有限块进行处置处罚的手段。
所以Window是无限数据流处置处罚的焦点，Window将一个无限的stream拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。
Window范例
本文刚开始提到，分别窗口就两种方式：
1.根据时间进行截取(time-driven-window)，比如每1分钟统计一次或每10分钟统计一次。
2.根据数据进行截取(data-driven-window)，比如每5个数据统计一次或每50个数据统计一次。

窗口范例
对于TimeWindow(根据时间分别窗口)，可以根据窗口实现原理的不同分成三类：滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）和会话窗口（Session Window）。
1.滚动窗口（Tumbling Windows）
将数据依据固定的窗口长度对数据进行切片。
特点：时间对齐，窗口长度固定，没有重叠。
滚动窗口分配器将每个元素分配到一个指定窗口大小的窗口中，滚动窗口有一个固定的大小，而且不会出现重叠。
例如：假如你指定了一个5分钟大小的滚动窗口，窗口的创建如下图所示：

滚动窗口
适用场景：适合做BI统计等（做每个时间段的聚合计算）。
2.滑动窗口（Sliding Windows）
滑动窗口是固定窗口的更广义的一种形式，滑动窗口由固定的窗口长度和滑动隔断组成。
特点：时间对齐，窗口长度固定，有重叠。
滑动窗口分配器将元素分配到固定长度的窗口中，与滚动窗口雷同，窗口的大小由窗口大小参数来配置，另一个窗口滑动参数控制滑动窗口开始的频率。因此，滑动窗口假如滑动参数小于窗口大小的话，窗口是可以重叠的，在这种情况下元素会被分配到多个窗口中。
例如，你有10分钟的窗口和5分钟的滑动，那么每个窗口中5分钟的窗口里包罗着上个10分钟产生的数据，如下图所示：

滑动窗口
适用场景：对最近一个时间段内的统计（求某接口最近5min的失败率来决定是否要报警）。
3.会话窗口（Session Windows）
由一系列事件组合一个指定时间长度的timeout间隙组成，雷同于web应用的session，也就是一段时间没有吸收到新数据就会天生新的窗口。
特点：时间无对齐。
session窗口分配器通过session活动来对元素进行分组，session窗口跟滚动窗口和滑动窗口相比，不会有重叠和固定的开始时间和结束时间的情况，相反，当它在一个固定的时间周期内不再收到元素，即非活动隔断产生，谁人这个窗口就会关闭。一个session窗口通过一个session隔断来配置，这个session隔断界说了非活跃周期的长度，当这个非活跃周期产生，那么当前的session将关闭而且后续的元素将被分配到新的session窗口中去。

会话窗口
3. Window API

TimeWindow
TimeWindow是将指定时间范围内的所有数据组成一个window，一次对一个window内里的所有数据进行计算（就是本文开头说的对一个边界内的数据进行计算）。
我们以红绿灯路口通过的汽车数目为例子：
红绿灯路口会有汽车通过，一共会有多少汽车通过，无法计算。由于车流源源不停，计算没有边界。
所以我们统计每15秒钟通过红路灯的汽车数目，如第一个15秒为2辆，第二个15秒为3辆，第三个15秒为1辆 …
tumbling-time-window (无重叠数据)
我们使用 Linux 中的 nc 下令模拟数据的发送方
1.开开导送端口，端口号为9999

nc -lk 9999

复制代码

2.发送内容（key 代表不同的路口，value 代表每次通过的车辆）
一次发送一行，发送的时间隔断代表汽车颠末的时间隔断

复制代码

Flink 进行采集数据并计算：

object Window {
def main(args: Array[String]): Unit = {
//TODO time-window
//1.创建运行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2.定义数据流来源
val text = env.socketTextStream("localhost", 9999)
//3.转换数据格式，text->CarWc
case class CarWc(sensorId: Int, carCnt: Int)
val ds1: DataStream[CarWc] = text.map {
line => {
val tokens = line.split(",")
CarWc(tokens(0).trim.toInt, tokens(1).trim.toInt)
}
}
//4.执行统计操作，每个sensorId一个tumbling窗口，窗口的大小为5秒
//也就是说，每5秒钟统计一次，在这过去的5秒钟内，各个路口通过红绿灯汽车的数量。
val ds2: DataStream[CarWc] = ds1
.keyBy("sensorId")
.timeWindow(Time.seconds(5))
.sum("carCnt")
//5.显示统计结果
ds2.print()
//6.触发流计算
env.execute(this.getClass.getName)
}
}

复制代码

我们发送的数据并没有指定时间字段，所以Flink使用的是默认的 Processing Time，也就是Flink系统处置处罚数据时的时间。
sliding-time-window (有重叠数据)

//1.创建运行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2.定义数据流来源
val text = env.socketTextStream("localhost", 9999)
//3.转换数据格式，text->CarWc
case class CarWc(sensorId: Int, carCnt: Int)
val ds1: DataStream[CarWc] = text.map {
line => {
val tokens = line.split(",")
CarWc(tokens(0).trim.toInt, tokens(1).trim.toInt)
}
}
//4.执行统计操作，每个sensorId一个sliding窗口，窗口时间10秒,滑动时间5秒
//也就是说，每5秒钟统计一次，在这过去的10秒钟内，各个路口通过红绿灯汽车的数量。
val ds2: DataStream[CarWc] = ds1
.keyBy("sensorId")
.timeWindow(Time.seconds(10), Time.seconds(5))
.sum("carCnt")
//5.显示统计结果
ds2.print()
//6.触发流计算
env.execute(this.getClass.getName)

复制代码

CountWindow
CountWindow根据窗口中雷同key元素的数目来触发执行，执行时只计算元素数目到达窗口大小的key对应的结果。
留意：CountWindow的window_size指的是雷同Key的元素的个数，不是输入的所有元素的总数。
tumbling-count-window (无重叠数据)

//1.创建运行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2.定义数据流来源
val text = env.socketTextStream("localhost", 9999)
//3.转换数据格式，text->CarWc
case class CarWc(sensorId: Int, carCnt: Int)
val ds1: DataStream[CarWc] = text.map {
(f) => {
val tokens = f.split(",")
CarWc(tokens(0).trim.toInt, tokens(1).trim.toInt)
}
}
//4.执行统计操作，每个sensorId一个tumbling窗口，窗口的大小为5
//按照key进行收集，对应的key出现的次数达到5次作为一个结果
val ds2: DataStream[CarWc] = ds1
.keyBy("sensorId")
.countWindow(5)
.sum("carCnt")
//5.显示统计结果
ds2.print()
//6.触发流计算
env.execute(this.getClass.getName)

复制代码

sliding-count-window (有重叠数据)
同样也是窗口长度和滑动窗口的操作：窗口长度是5，滑动长度是3

//1.创建运行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2.定义数据流来源
val text = env.socketTextStream("localhost", 9999)
//3.转换数据格式，text->CarWc
case class CarWc(sensorId: Int, carCnt: Int)
val ds1: DataStream[CarWc] = text.map {
(f) => {
val tokens = f.split(",")
CarWc(tokens(0).trim.toInt, tokens(1).trim.toInt)
}
}
//4.执行统计操作，每个sensorId一个sliding窗口，窗口大小3条数据,窗口滑动为3条数据
//也就是说，每个路口分别统计，收到关于它的3条消息时统计在最近5条消息中，各自路口通过的汽车数量
val ds2: DataStream[CarWc] = ds1
.keyBy("sensorId")
.countWindow(5, 3)
.sum("carCnt")
//5.显示统计结果
ds2.print()
//6.触发流计算
env.execute(this.getClass.getName)

复制代码

Window 总结
1.flink支持两种分别窗口的方式（time和count）
假如根据时间分别窗口，那么它就是一个time-window
假如根据数据分别窗口，那么它就是一个count-window
2.flink支持窗口的两个重要属性（size和interval）
假如size=interval,那么就会形成tumbling-window(无重叠数据)
假如size>interval,那么就会形成sliding-window(有重叠数据)
假如size<interval,那么这种窗口将会丢失数据。比如每5秒钟，统计过去3秒的通过路口汽车的数据，将会漏掉2秒钟的数据。
3.通过组合可以得出四种基本窗口
time-tumbling-window 无重叠数据的时间窗口，设置方式举例：timeWindow(Time.seconds(5))
time-sliding-window 有重叠数据的时间窗口，设置方式举例：timeWindow(Time.seconds(5), Time.seconds(3))
count-tumbling-window无重叠数据的数目窗口，设置方式举例：countWindow(5)
count-sliding-window 有重叠数据的数目窗口，设置方式举例：countWindow(5,3)
3) Window Reduce
WindowedStream → DataStream：给window赋一个reduce功能的函数，并返回一个聚合的结果。

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
object StreamWindowReduce {
def main(args: Array[String]): Unit = {
// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 创建SocketSource
val stream = env.socketTextStream("node01", 9999)
// 对stream进行处理并按key聚合
val streamKeyBy = stream.map(item => (item, 1)).keyBy(0)
// 引入时间窗口
val streamWindow = streamKeyBy.timeWindow(Time.seconds(5))
// 执行聚合操作
val streamReduce = streamWindow.reduce(
(item1, item2) => (item1._1, item1._2 + item2._2)
)
// 将聚合数据写入文件
streamReduce.print()
// 执行程序
env.execute("TumblingWindow")
}
}

复制代码

Window Apply
apply方法可以进行一些自界说处置处罚，通过匿名内部类的方法来实现。当有一些复杂计算时使用。
用法
1.实现一个 WindowFunction 类
2.指定该类的泛型为 [输入数据范例, 输出数据范例, keyBy中使用分组字段的范例, 窗口范例]
示例：使用apply方法来实现单词统计
步骤：
1.获取流处置处罚运行环境
2.构建socket流数据源，并指定IP地址和端口号
3.对吸收到的数据转换成单词元组
4.使用 keyBy 进行分流（分组）
5.使用 timeWinodw 指定窗口的长度（每3秒计算一次）
6.实现一个WindowFunction匿名内部类
apply方法中实现聚合计算
使用Collector.collect网络数据
焦点代码如下：

//1. 获取流处理运行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//2. 构建socket流数据源，并指定IP地址和端口号
val textDataStream = env.socketTextStream("node01", 9999).flatMap(_.split(" "))
//3. 对接收到的数据转换成单词元组
val wordDataStream = textDataStream.map(_->1)
//4. 使用 keyBy 进行分流（分组）
val groupedDataStream: KeyedStream[(String, Int), String] = wordDataStream.keyBy(_._1)
//5. 使用 timeWinodw 指定窗口的长度（每3秒计算一次）
val windowDataStream: WindowedStream[(String, Int), String, TimeWindow] = groupedDataStream.timeWindow(Time.seconds(3))
//6. 实现一个WindowFunction匿名内部类
val reduceDatStream: DataStream[(String, Int)] = windowDataStream.apply(new RichWindowFunction[(String, Int), (String, Int), String, TimeWindow] {
//在apply方法中实现数据的聚合
override def apply(key: String, window: TimeWindow, input: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
println("hello world")
val tuple = input.reduce((t1, t2) => {
(t1._1, t1._2 + t2._2)
})
//将要返回的数据收集起来，发送回去
out.collect(tuple)
}
})
reduceDatStream.print()
env.execute()

复制代码

Window Fold
WindowedStream → DataStream：给窗口赋一个fold功能的函数，并返回一个fold后的结果。

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
object StreamWindowFold {
def main(args: Array[String]): Unit = {
// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 创建SocketSource
val stream = env.socketTextStream("node01", 9999,'\n',3)
// 对stream进行处理并按key聚合
val streamKeyBy = stream.map(item => (item, 1)).keyBy(0)
// 引入滚动窗口
val streamWindow = streamKeyBy.timeWindow(Time.seconds(5))
// 执行fold操作
val streamFold = streamWindow.fold(100){
(begin, item) =>
begin + item._2
}
// 将聚合数据写入文件
streamFold.print()
// 执行程序
env.execute("TumblingWindow")
}
}

复制代码

Aggregation on Window
WindowedStream → DataStream：对一个window内的所有元素做聚合操作。min和 minBy的区别是min返回的是最小值，而minBy返回的是包罗最小值字段的元素(同样的原理适用于 max 和 maxBy)。

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.api.scala._
object StreamWindowAggregation {
def main(args: Array[String]): Unit = {
// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 创建SocketSource
val stream = env.socketTextStream("node01", 9999)
// 对stream进行处理并按key聚合
val streamKeyBy = stream.map(item => (item.split(" ")(0), item.split(" ")(1))).keyBy(0)
// 引入滚动窗口
val streamWindow = streamKeyBy.timeWindow(Time.seconds(5))
// 执行聚合操作
val streamMax = streamWindow.max(1)
// 将聚合数据写入文件
streamMax.print()
// 执行程序
env.execute("TumblingWindow")
}
}

复制代码

4. EventTime与Window

1) EventTime的引入
1.与实际天下中的时间是不同等的，在flink中被分别为事件时间，提取时间，处置处罚时间三种。
2.假如以EventTime为基准来界说时间窗口那将形成EventTimeWindow,要求消息自己就应该携带EventTime
3.假如以IngesingtTime为基准来界说时间窗口那将形成IngestingTimeWindow,以source的systemTime为准。
4.假如以ProcessingTime基准来界说时间窗口那将形成ProcessingTimeWindow，以operator的systemTime为准。
在Flink的流式处置处罚中，绝大部门的业务都会使用eventTime，一般只在eventTime无法使用时，才会被迫使用ProcessingTime大概IngestionTime。
假如要使用EventTime，那么需要引入EventTime的时间属性，引入方式如下所示：

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env创建的每一个stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

复制代码

2) Watermark
我们知道，流处置处罚从事件产生，到流经 source，再到 operator，中心是有一个过程和时间的，固然大部门情况下，流到 operator 的数据都是按照事件产生的时间序次来的，但是也不排除由于网络、背压等原因，导致乱序的产生，所谓乱序，就是指 Flink 吸收到的事件的先后序次不是严格按照事件的 Event Time 序次排列的，所以 Flink 最初设计的时间，就考虑到了网络延迟，网络乱序等问题，所以提出了一个抽象概念：水印（WaterMark）；

如上图所示，就出现一个问题，一旦出现乱序，假如只根据 EventTime 决定 Window 的运行，我们不能明白数据是否全部到位，但又不能无限期的等下去，此时必须要有个机制来包管一个特定的时间后，必须触发 Window 去进行计算了，这个特别的机制，就是 Watermark。
Watermark 是用于处置处罚乱序事件的，而正确的处置处罚乱序事件，通常用 Watermark 机制联合 Window 来实现。
数据流中的 Watermark 用于表现 timestamp 小于 Watermark 的数据，都已经到达了，因此，Window 的执行也是由 Watermark 触发的。
Watermark 可以理解成一个延迟触发机制，我们可以设置 Watermark 的延时时长 t，每次系统会校验已经到达的数据中最大的 maxEventTime，然后认定 EventTime 小于 maxEventTime - t 的所有数据都已经到达，假如有窗口的停止时间即是 maxEventTime – t，那么这个窗口被触发执行。
有序流的Watermarker如下图所示：（Watermark设置为0）

有序数据的Watermark
乱序流的Watermarker如下图所示：（Watermark设置为2）

无序数据的Watermark
当 Flink 吸收到每一条数据时，都会产生一条 Watermark，这条 Watermark 就即是当前所有到达数据中的 maxEventTime - 延迟时长，也就是说，Watermark 是由数据携带的，一旦数据携带的 Watermark 比当前未触发的窗口的停止时间要晚，那么就会触发相应窗口的执行。由于 Watermark 是由数据携带的，因此，假如运行过程中无法获取新的数据，那么没有被触发的窗口将永久都不被触发。
上图中，我们设置的允许最大延迟到达时间为2s，所以时间戳为7s的事件对应的Watermark是5s，时间戳为12s的事件的Watermark是10s，假如我们的窗口1是1s5s，窗口2是6s10s，那么时间戳为7s的事件到达时的Watermarker恰恰触发窗口1，时间戳为12s的事件到达时的Watermark恰恰触发窗口2。
3) Flink对于迟到数据的处置处罚
waterMark和Window机制办理了流式数据的乱序问题，对于由于延迟而序次有误的数据，可以根据eventTime进行业务处置处罚，于延迟的数据Flink也有自己的办理办法，重要的办法是给定一个允许延迟的时间，在该时间范围内仍可以担当处置处罚延迟数据。
设置允许延迟的时间是通过 allowedLateness(lateness: Time) 设置
生存延迟数据则是通过 sideOutputLateData(outputTag: OutputTag[T]) 生存
获取延迟数据是通过 DataStream.getSideOutput(tag: OutputTag[X]) 获取
具体的用法如下：

allowedLateness(lateness: Time)
def allowedLateness(lateness: Time): WindowedStream[T, K, W] = {
javaStream.allowedLateness(lateness)
this
}

复制代码

该方法传入一个Time值，设置允许数据迟到的时间，这个时间和 WaterMark 中的时间概念不同。再往返顾一下：
WaterMark=数据的事件时间-允许乱序时间值
随着新数据的到来，waterMark的值会更新为最新数据事件时间-允许乱序时间值，但是假如这时间来了一条历史数据，waterMark值则不会更新。总的来说，waterMark是为了能吸收到尽可能多的乱序数据。
那这里的Time值，重要是为了等待迟到的数据，在一定时间范围内，假如属于该窗口的数据到来，仍会进行计算，背面会对计算方式仔细说明
留意：该方法只针对于基于event-time的窗口，假如是基于processing-time，而且指定了非零的time值则会抛出非常。
sideOutputLateData(outputTag: OutputTag[T])

def sideOutputLateData(outputTag: OutputTag[T]): WindowedStream[T, K, W] = {
javaStream.sideOutputLateData(outputTag)
this
}

复制代码

该方法是将迟来的数据生存至给定的outputTag参数，而OutputTag则是用来标志延迟数据的一个对象。
DataStream.getSideOutput(tag: OutputTag[X])
通过window等操作返回的DataStream调用该方法，传入标志延迟数据的对象来获取延迟的数据。
对延迟数据的理解
延迟数据是指：
在当前窗口【假设窗口范围为10-15】已经计算之后，又来了一个属于该窗口的数据【假设事件时间为13】，这时间仍会触发 Window 操作，这种数据就称为延迟数据。
那么问题来了，延迟时间怎么计算呢？
假设窗口范围为10-15，延迟时间为2s，则只要 WaterMark<15+2，而且属于该窗口，就能触发 Window 操作。而假如来了一条数据使得 WaterMark>=15+2，10-15这个窗口就不能再触发 Window 操作，即使新来的数据的 Event Time 属于这个窗口时间内。
4) Flink 关联 Hive 分区表
Flink 1.12 支持了 Hive 最新的分区作为时态表的功能，可以通过 SQL 的方式直接关联 Hive 分区表的最新分区，而且会自动监听最新的 Hive 分区，当监控到新的分区后，会自动地做维表数据的全量替换。通过这种方式，用户无需编写 DataStream 程序即可完成 Kafka 流实时关联最新的 Hive 分区实现数据打宽。
具体用法：
在 Sql Client 中注册 HiveCatalog：

vim conf/sql-client-defaults.yaml
catalogs:
- name: hive_catalog
type: hive
hive-conf-dir: /disk0/soft/hive-conf/ #该目录需要包hive-site.xml文件

复制代码

创建 Kafka 表

CREATE TABLE hive_catalog.flink_db.kfk_fact_bill_master_12 (
master Row<reportDate String, groupID int, shopID int, shopName String, action int, orderStatus int, orderKey String, actionTime bigint, areaName String, paidAmount double, foodAmount double, startTime String, person double, orderSubType int, checkoutTime String>,
proctime as PROCTIME() -- PROCTIME用来和Hive时态表关联
) WITH (
'connector' = 'kafka',
'topic' = 'topic_name',
'format' = 'json',
'properties.bootstrap.servers' = 'host:9092',
'properties.group.id' = 'flinkTestGroup',
'scan.startup.mode' = 'timestamp',
'scan.startup.timestamp-millis' = '1607844694000'
);

复制代码

Flink 究竟表与 Hive 最新分区数据关联
dim_extend_shop_info 是 Hive 中已存在的表，所以我们用 table hint 动态地开启维表参数。

CREATE VIEW IF NOT EXISTS hive_catalog.flink_db.view_fact_bill_master as
SELECT * FROM
(select t1.*, t2.group_id, t2.shop_id, t2.group_name, t2.shop_name, t2.brand_id,
ROW_NUMBER() OVER (PARTITION BY groupID, shopID, orderKey ORDER BY actionTime desc) rn
from hive_catalog.flink_db.kfk_fact_bill_master_12 t1
JOIN hive_catalog.flink_db.dim_extend_shop_info
/*+ OPTIONS('streaming-source.enable'='true',
'streaming-source.partition.include' = 'latest',
'streaming-source.monitor-interval' = '1 h',
'streaming-source.partition-order' = 'partition-name') */
FOR SYSTEM_TIME AS OF t1.proctime AS t2 --时态表
ON t1.groupID = t2.group_id and t1.shopID = t2.shop_id
where groupID in (202042)) t where t.rn = 1

复制代码

参数解释：
streaming-source.enable 开启流式读取 Hive 数据。
streaming-source.partition.include 有以下两个值：
1.latest 属性: 只读取最新分区数据。
2.all: 读取全量分区数据，默认值为 all，表现读所有分区，latest 只能用在 temporal join 中，用于读取最新分区作为维表，不能直接读取最新分区数据。
streaming-source.monitor-interval 监听新分区天生的时间、不宜过短、最短是1 个小时，由于目前的实现是每个 task 都会查询 metastore，高频的查可能会对metastore 产生过大的压力。需要留意的是，1.12.1 放开了这个限定，但仍建议按照实际业务不要配个太短的 interval。
streaming-source.partition-order 分区策略，重要有以下 3 种，其中最为保举的是 partition-name：
1.partition-name 使用默认分区名称序次加载最新分区
2.create-time 使用分区文件创建时间序次
3.partition-time 使用分区时间序次
7 Flink处置处罚函数

A 基本处置处罚函数（ProcessFunction）

之前所介绍的流处置处罚API，无论是基本的转换、聚合，还是更为复杂的窗口操作，实在都是基于DataStream进行转换的，所以可以统称为DataStream API。
在Flink更底层，我们可以不界说任何具体的算子（比如map，filter，大概window），而只是提炼出一个同一的“处置处罚”（process）操作——它是所有转换算子的一个概括性的表达，可以自界说处置处罚逻辑，所以这一层接口就被叫作**“处置处罚函数”（process function）**。

1 处置处罚函数的功能和使用（ProcessFunction）

1 处置处罚函数的功能和使用

我们之前学习的转换算子，一般只是针对某种具体操作来界说的，能够拿到的信息比较有限。假如我们想要访问事件的时间戳，大概当前的水位线信息，都是完全做不到的。跟时间相干的操作，目前我们只会用窗口来处置处罚。而在很多应用需求中，要求我们对时间有更精细的控制，需要能够获取水位线，乃至要“把控时间”、界说什么时间做什么事，这就不是基本的时间窗口能够实现的了。
这时就需要使用底层的处置处罚函数。处置处罚函数提供了一个“定时服务”（TimerService），我们可以通过它访问流中的事件（event）、时间戳（timestamp）、水位线（watermark），乃至可以注册“定时势件”。而且处置处罚函数继续了AbstractRichFunction抽象类，所以拥有富函数类的所有特性，同样可以访问状态（state）和其他运行时信息。别的，处置处罚函数还可以直接将数据输出到侧输出流（side output）中。所以，处置处罚函数是最为灵活的处置处罚方法，可以实现各种自界说的业务逻辑。
处置处罚函数的使用与基本的转换操作雷同，只需要直接基于DataStream调用.process()方法就可以了。方法需要传入一个ProcessFunction作为参数，用来界说处置处罚逻辑。

stream.process(new MyProcessFunction())

复制代码

这里ProcessFunction不是接口，而是一个抽象类，继续了AbstractRichFunction；MyProcessFunction是它的一个具体实现。所以所有的处置处罚函数，都是富函数（RichFunction），富函数可以调用的东西这里同样都可以调用。
2 ProcessFunction剖析

在源码中我们可以看到，抽象类ProcessFunction继续了AbstractRichFunction，有两个泛型范例参数：I表现Input，也就是输入的数据范例；O表现Output，也就是处置处罚完成之后输出的数据范例。
内部单独界说了两个方法：一个是必须要实现的抽象方法.processElement()；另一个是非抽象方法.onTimer()。

public abstract class ProcessFunction<I, O> extends AbstractRichFunction {
public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception;
public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {}
}

复制代码

1）抽象方法.processElement()
用于“处置处罚元素”，界说了处置处罚的焦点逻辑。这个方法对于流中的每个元素都会调用一次，参数包括三个：输入数据值value，上下文ctx，以及“网络器”（Collector）out。方法没有返回值，处置处罚之后的输出数据是通过网络器out来界说的。
value：当前流中的输入元素，也就是正在处置处罚的数据，范例与流中数据范例同等。
ctx：范例是ProcessFunction中界说的内部抽象类Context，表现当前运行的上下文，可以获取到当前的时间戳，并提供了用于查询时间和注册定时器的“定时服务”（TimerService），以及可以将数据发送到“侧输出流”（side output）的方法.output()。
out：“网络器”（范例为Collector），用于返回输出数据。使用方式与flatMap算子中的网络器完全一样，直接调用out.collect()方法就可以向下游发出一个数据。这个方法可以多次调用，也可以不调用。
通过几个参数的分析不难发现，ProcessFunction可以轻松实现flatMap、map、filter如许的基本转换功能；而通过富函数提供的获取上下文方法.getRuntimeContext()，也可以自界说状态（state）进行处置处罚，这也就能实现聚合操作的功能了。
2）非抽象方法.onTimer()
这个方法只有在注册好的定时器触发的时间才会调用，而定时器是通过“定时服务”TimerService来注册的。打个比方，注册定时器（timer）就是设了一个闹钟，到了设定时间就会响；而.onTimer()中界说的，就是闹钟响的时间要做的事。所以它本质上是一个基于时间的“回调”（callback）方法，通过时间的进展来触发；在事件时间语义下就是由水位线（watermark）来触发了。
定时方法.onTimer()也有三个参数：时间戳（timestamp），上下文（ctx），以及网络器（out）。这里的timestamp是指设定好的触发时间，事件时间语义下当然就是水位线了。别的这里同样有上下文和网络器，所以也可以调用定时服务（TimerService），以及任意输出处置处罚之后的数据。
既然有.onTimer()方法做定时触发，我们用ProcessFunction也可以自界说数据按照时间分组、定时触发计算输出结果；这实在就实现了窗口（window）的功能。所以说ProcessFunction实在可以实现统统功能。
留意：在Flink中，只有“按键分区流”KeyedStream才支持设置定时器的操作。
3 处置处罚函数的分类

我们知道，DataStream在调用一些转换方法之后，有可能天生新的流范例；例如调用.keyBy()之后得到KeyedStream，进而再调用.window()之后得到WindowedStream。对于不同范例的流，实在都可以直接调用.process()方法进行自界说处置处罚，这时传入的参数就都叫作处置处罚函数。当然，它们尽管本质雷同，都是可以访问状态和时间信息的底层API，可相互之间也会有所差异。
Flink提供了8个不同的处置处罚函数：
（1）ProcessFunction
最基本的处置处罚函数，基于DataStream直接调用.process()时作为参数传入。
（2）KeyedProcessFunction
对流按键分区后的处置处罚函数，基于KeyedStream调用.process()时作为参数传入。要想使用定时器，比如基于KeyedStream。
（3）ProcessWindowFunction
开窗之后的处置处罚函数，也是全窗口函数的代表。基于WindowedStream调用.process()时作为参数传入。
（4）ProcessAllWindowFunction
同样是开窗之后的处置处罚函数，基于AllWindowedStream调用.process()时作为参数传入。
（5）CoProcessFunction
合并（connect）两条流之后的处置处罚函数，基于ConnectedStreams调用.process()时作为参数传入。关于流的连接合并操作，我们会在后续章节详细介绍。
（6）ProcessJoinFunction
隔断连接（interval join）两条流之后的处置处罚函数，基于IntervalJoined调用.process()时作为参数传入。
（7）BroadcastProcessFunction
广播连接流处置处罚函数，基于BroadcastConnectedStream调用.process()时作为参数传入。这里的“广播连接流”BroadcastConnectedStream，是一个未keyBy的普通DataStream与一个广播流（BroadcastStream）做连接（conncet）之后的产物。关于广播流的相干操作，我们会在后续章节详细介绍。
（8）KeyedBroadcastProcessFunction
按键分区的广播连接流处置处罚函数，同样是基于BroadcastConnectedStream调用.process()时作为参数传入。与BroadcastProcessFunction不同的是，这时的广播连接流，是一个KeyedStream与广播流（BroadcastStream）做连接之后的产物。
B 按键分区处置处罚函数（KeyedProcessFunction）

在上节中提到，只有在KeyedStream中才支持使用TimerService设置定时器的操作。所以一般情况下，我们都是先做了keyBy分区之后，再去界说处置处罚操作；代码中更加常见的处置处罚函数是KeyedProcessFunction。
1 定时器（Timer）和定时服务（TimerService）

在.onTimer()方法中可以实现定时处置处罚的逻辑，而它能触发的条件，就是之前曾经注册过定时器、而且现在已经到了触发时间。注册定时器的功能，是通过上下文中提供的“定时服务”来实现的。
定时服务与当前运行的环境有关。前面已经介绍过，ProcessFunction的上下文（Context）中提供了.timerService()方法，可以直接返回一个TimerService对象。TimerService是Flink关于时间和定时器的基础服务接口，包罗以下六个方法：

// 获取当前的处理时间
long currentProcessingTime();
// 获取当前的水位线（事件时间）
long currentWatermark();
// 注册处理时间定时器，当处理时间超过time时触发
void registerProcessingTimeTimer(long time);
// 注册事件时间定时器，当水位线超过time时触发
void registerEventTimeTimer(long time);
// 删除触发时间为time的处理时间定时器
void deleteProcessingTimeTimer(long time);
// 删除触发时间为time的处理时间定时器
void deleteEventTimeTimer(long time);

复制代码

六个方法可以分成两大类：基于处置处罚时间和基于事件时间。而对应的操作重要有三个：获取当前时间，注册定时器，以及删除定时器。需要留意，尽管处置处罚函数中都可以直接访问TimerService，不外只有基于KeyedStream的处置处罚函数，才能去调用注册和删除定时器的方法；未作按键分区的DataStream不支持定时器操作，只能获取当前时间。
TimerService会以键（key）和时间戳为尺度，对定时器进行去重；也就是说对于每个key和时间戳，最多只有一个定时器，假如注册了多次，onTimer()方法也将只被调用一次。
2 KeyedProcessFunction案例

基于keyBy之后的KeyedStream，直接调用.process()方法，这时需要传入的参数就是KeyedProcessFunction的实现类。

stream.keyBy( t -> t.f0 )
.process(new MyKeyedProcessFunction())

复制代码

雷同地，KeyedProcessFunction也是继续自AbstractRichFunction的一个抽象类，与ProcessFunction的界说几乎完全一样，区别只是在于范例参数多了一个K，这是当前按键分区的key的范例。同样地，我们必须实现一个.processElement()抽象方法，用来处置处罚流中的每一个数据；别的另有一个非抽象方法.onTimer()，用来界说定时器触发时的回调操作。
代码如下：

public class KeyedProcessTimerDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); KeyedStream<WaterSensor, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getId()); // TODO Process:keyed SingleOutputStreamOperator<String> process = sensorKS.process( new KeyedProcessFunction<String, WaterSensor, String>() { /** * 来一条数据调用一次 * @param value * @param ctx * @param out * @throws Exception */ @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception { //获取当前数据的key String currentKey = ctx.getCurrentKey(); // TODO 1.定时器注册 TimerService timerService = ctx.timerService(); // 1、事件时间的案例 Long currentEventTime = ctx.timestamp(); // 数据中提取出来的事件时间 timerService.registerEventTimeTimer(5000L); System.out.println("当前key=" + currentKey + ",当前时间=" + currentEventTime + ",注册了一个5s的定时器"); // 2、处置处罚时间的案例// long currentTs = timerService.currentProcessingTime();// timerService.registerProcessingTimeTimer(currentTs + 5000L);// System.out.println("当前key=" + currentKey + ",当前时间=" + currentTs + ",注册了一个5s后的定时器"); // 3、获取 process的当前watermark// long currentWatermark = timerService.currentWatermark();// System.out.println("当前数据=" + value + ",当前watermark=" + currentWatermark); // 注册定时器：处置处罚时间、事件时间// timerService.registerProcessingTimeTimer();// timerService.registerEventTimeTimer(); // 删除定时器：处置处罚时间、事件时间// timerService.deleteEventTimeTimer();// timerService.deleteProcessingTimeTimer(); // 获取当前时间进展：处置处罚时间-当前系统时间，事件时间-当前watermark// long currentTs = timerService.currentProcessingTime();// long wm = timerService.currentWatermark(); } /** * TODO 2.时间进展到定时器注册的时间，调用该方法 * @param timestamp 当前时间进展，就是定时器被触发时的时间 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void onTimer(long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception { super.onTimer(timestamp, ctx, out); String currentKey = ctx.getCurrentKey(); System.out.println("key=" + currentKey + "现在时间是" + timestamp + "定时器触发"); } } ); process.print(); env.execute();
}}

复制代码

C 窗口处置处罚函数

除了KeyedProcessFunction，别的一大类常用的处置处罚函数，就是基于窗口的ProcessWindowFunction和ProcessAllWindowFunction了。在第六章窗口函数的介绍中，我们之前已经简朴地使用过窗口处置处罚函数了。
1 窗口处置处罚函数的使用

进行窗口计算，我们可以直接调用现成的简朴聚合方法（sum/max/min），也可以通过调用.reduce()或.aggregate()来自界说一般的增量聚合函数（ReduceFunction/AggregateFucntion）；而对于更加复杂、需要窗口信息和额外状态的一些场景，我们还可以直接使用全窗口函数、把数据全部网络生存在窗口内，比及触发窗口计算时再同一处置处罚。窗口处置处罚函数就是一种典型的全窗口函数。
窗口处置处罚函数ProcessWindowFunction的使用与其他窗口函数雷同，也是基于WindowedStream直接调用方法就可以，只不外这时调用的是.process()。

stream.keyBy( t -> t.f0 )
.window( TumblingEventTimeWindows.of(Time.seconds(10)) )
.process(new MyProcessWindowFunction())

复制代码

2 ProcessWindowFunction剖析

ProcessWindowFunction既是处置处罚函数又是全窗口函数。从名字上也可以推测出，它的本质似乎更倾向于“窗口函数”一些。究竟上它的用法也确实跟其他处置处罚函数有很大不同。我们可以从源码中的界说看到这一点：

public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window> extends AbstractRichFunction {
...
public abstract void process(
KEY key, Context context, Iterable<IN> elements, Collector<OUT> out) throws Exception;
public void clear(Context context) throws Exception {}
public abstract class Context implements java.io.Serializable {...}
}

复制代码

ProcessWindowFunction依然是一个继续了AbstractRichFunction的抽象类，它有四个范例参数：
IN：input，数据流中窗口任务的输入数据范例。
OUT：output，窗口任务进行计算之后的输出数据范例。
KEY：数据中键key的范例。
W：窗口的范例，是Window的子范例。一般情况下我们界说时间窗口，W就是TimeWindow。
ProcessWindowFunction内里处置处罚数据的焦点方法.process()。方法包罗四个参数。
key：窗口做统计计算基于的键，也就是之前keyBy用来分区的字段。
context：当前窗口进行计算的上下文，它的范例就是ProcessWindowFunction内部界说的抽象类Context。
elements：窗口网络到用来计算的所有数据，这是一个可迭代的聚集范例。
out：用来发送数据输出计算结果的网络器，范例为Collector。
可以显着看出，这里的参数不再是一个输入数据，而是窗口中所有数据的聚集。而上下文context所包罗的内容也跟其他处置处罚函数有所差别：

public abstract class Context implements java.io.Serializable {
public abstract W window();
public abstract long currentProcessingTime();
public abstract long currentWatermark();
public abstract KeyedStateStore windowState();
public abstract KeyedStateStore globalState();
public abstract <X> void output(OutputTag<X> outputTag, X value);
}

复制代码

除了可以通过.output()方法界说侧输出流稳定外，其他部门都有所变化。这里不再持有TimerService对象，只能通过currentProcessingTime()和currentWatermark()来获取当前时间，所以失去了设置定时器的功能；别的由于当前不是只处置处罚一个数据，所以也不再提供.timestamp()方法。与此同时，也增长了一些获取其他信息的方法：比如可以通过.window()直接获取到当前的窗口对象，也可以通过.windowState()和.globalState()获取到当前自界说的窗口状态和全局状态。留意这里的“窗口状态”是自界说的，不包括窗口自己已经有的状态，针对当前key、当前窗口有效；而“全局状态”同样是自界说的状态，针对当前key的所有窗口有效。
所以我们会发现，ProcessWindowFunction中除了.process()方法外，并没有.onTimer()方法，而是多出了一个.clear()方法。从名字就可以看出，这重要是方便我们进行窗口的清算工作。假如我们自界说了窗口状态，那么必须在.clear()方法中进行显式地扫除，制止内存溢出。
至于另一种窗口处置处罚函数ProcessAllWindowFunction，它的用法非常雷同。区别在于它基于的是AllWindowedStream，相当于对没有keyBy的数据流直接开窗并调用.process()方法：

stream.windowAll( TumblingEventTimeWindows.of(Time.seconds(10)) )
.process(new MyProcessAllWindowFunction())

复制代码

D 应用案例——Top N

案例需求：实时统计一段时间内的出现次数最多的水位。例如，统计最近10秒钟内出现次数最多的两个水位，而且每5秒钟更新一次。我们知道，这可以用一个滑动窗口来实现。于是就需要开滑动窗口网络传感器的数据，按照不同的水位进行统计，而后汇总排序并终极输出前两名。这实在就是著名的“Top N”问题。
1 使用ProcessAllWindowFunction

思路一：一种最简朴的想法是，我们干脆不区分不同水位，而是将所有访问数据都网络起来，同一进行统计计算。所以可以不做keyBy，直接基于DataStream开窗，然后使用全窗口函数ProcessAllWindowFunction来进行处置处罚。
在窗口中可以用一个HashMap来生存每个水位的出现次数，只要遍历窗口中的所有数据，自然就能得到所有水位的出现次数。最后把HashMap转成一个列表ArrayList，然后进行排序、取出前两名输出就可以了。
代码具体实现如下：

public class ProcessAllWindowTopNDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); // 最近10秒= 窗口长度，每5秒输出 = 滑动步长 // TODO 思路一：所有数据到一起，用hashmap存， key=vc，value=count值 sensorDS.windowAll(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5))) .process(new MyTopNPAWF()) .print(); env.execute();
} public static class MyTopNPAWF extends ProcessAllWindowFunction<WaterSensor, String, TimeWindow> { @Override public void process(Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception { // 界说一个hashmap用来存，key=vc，value=count值 Map<Integer, Integer> vcCountMap = new HashMap<>(); // 1.遍历数据, 统计各个vc出现的次数 for (WaterSensor element : elements) { Integer vc = element.getVc(); if (vcCountMap.containsKey(vc)) { // 1.1 key存在，不是这个key的第一条数据，直接累加 vcCountMap.put(vc, vcCountMap.get(vc) + 1); } else { // 1.2 key不存在，初始化 vcCountMap.put(vc, 1); } } // 2.对 count值进行排序: 利用List来实现排序 List<Tuple2<Integer, Integer>> datas = new ArrayList<>(); for (Integer vc : vcCountMap.keySet()) { datas.add(Tuple2.of(vc, vcCountMap.get(vc))); } // 对List进行排序，根据count值降序 datas.sort(new Comparator<Tuple2<Integer, Integer>>() { @Override public int compare(Tuple2<Integer, Integer> o1, Tuple2<Integer, Integer> o2) { // 降序，后减前 return o2.f1 - o1.f1; } }); // 3.取出 count最大的2个 vc StringBuilder outStr = new StringBuilder(); outStr.append("================================\n"); // 遍历排序后的 List，取出前2个，考虑可能List不够2个的情况 ==》 List中元素的个数和 2 取最小值 for (int i = 0; i < Math.min(2, datas.size()); i++) { Tuple2<Integer, Integer> vcCount = datas.get(i); outStr.append("Top" + (i + 1) + "\n"); outStr.append("vc=" + vcCount.f0 + "\n"); outStr.append("count=" + vcCount.f1 + "\n"); outStr.append("窗口结束时间=" + DateFormatUtils.format(context.window().getEnd(), "yyyy-MM-dd HH:mm:ss.SSS") + "\n"); outStr.append("================================\n"); } out.collect(outStr.toString()); } }}

复制代码

2 使用KeyedProcessFunction

思路二：在上一小节的实现过程中，我们没有进行按键分区，直接将所有数据放在一个分区上进行了开窗操作。这相当于将并行度强行设置为1，在实际应用中是要尽量制止的，所以Flink官方也并不保举使用AllWindowedStream进行处置处罚。别的，我们在全窗口函数中界说了HashMap来统计vc的出现次数，计算过程是要先网络齐所有数据、然后再逐一遍历更新HashMap，这显然不够高效。
基于如许的想法，我们可以从两个方面去做优化：一是对数据进行按键分区，分别统计vc的出现次数；二是进行增量聚合，得到结果最后再做排序输出。所以，我们可以使用增量聚合函数AggregateFunction进行浏览量的统计，然后联合ProcessWindowFunction排序输出来实现Top N的需求。
具体实现可以分成两步：先对每个vc统计出现次数，然后再将统计结果网络起来，排序输出终极结果。由于最后的排序还是基于每个时间窗口的，输出的统计结果中要包罗窗口信息，我们可以输出包罗了vc、出现次数（count）以及窗口结束时间的Tuple3。之后先按窗口结束时间分区，然后用KeyedProcessFunction来实现。
用KeyedProcessFunction来网络数据做排序，这时面对的是窗口聚合之后的数据流，而窗口已经不存在了；我们需要确保能够网络齐所有数据，所以应该在窗口结束时间基础上再“多等一会儿”。具体实现上，可以采用一个延迟触发的事件时间定时器。基于窗口的结束时间来设定延迟，实在并不需要等太久——由于我们是靠水位线的推进来触发定时器，而水位线的含义就是“之前的数据都到齐了”。所以我们只需要设置1毫秒的延迟，就一定可以包管这一点。
而在等待过程中，之前已经到达的数据应该缓存起来，我们这里用一个自界说的HashMap来进行存储，key为窗口的标志，value为List。之后每来一条数据，就把它添加到当前的HashMap中，并注册一个触发时间为窗口结束时间加1毫秒（windowEnd + 1）的定时器。待到水位线到达这个时间，定时器触发，我们可以包管当前窗口所有vc的统计结果Tuple3都到齐了；于是从HashMap中取出进行排序输出。
具体代码实现如下：

public class KeyedProcessFunctionTopNDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); // 最近10秒= 窗口长度，每5秒输出 = 滑动步长 /** * TODO 思路二：使用 KeyedProcessFunction实现 * 1、按照vc做keyby，开窗，分别count * ==》增量聚合，计算 count * ==》全窗口，对计算结果 count值封装，带上窗口结束时间的标签 * ==》为了让同一个窗口时间范围的计算结果到一起去 * * 2、对同一个窗口范围的count值进行处置处罚：排序、取前N个 * =》按照 windowEnd做keyby * =》使用process，来一条调用一次，需要先存，分开存，用HashMap,key=windowEnd,value=List * =》使用定时器，对存起来的结果进行排序、取前N个 */ // 1. 按照 vc 分组、开窗、聚合（增量计算+全量打标签） // 开窗聚合后，就是普通的流，没有了窗口信息，需要自己打上窗口的标志 windowEnd SingleOutputStreamOperator<Tuple3<Integer, Integer, Long>> windowAgg = sensorDS.keyBy(sensor -> sensor.getVc()) .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5))) .aggregate( new VcCountAgg(), new WindowResult() ); // 2. 按照窗口标签（窗口结束时间）keyby，包管同一个窗口时间范围的结果，到一起去。排序、取TopN windowAgg.keyBy(r -> r.f2) .process(new TopN(2)) .print(); env.execute();
} public static class VcCountAgg implements AggregateFunction<WaterSensor, Integer, Integer> { @Override public Integer createAccumulator() { return 0; } @Override public Integer add(WaterSensor value, Integer accumulator) { return accumulator + 1; } @Override public Integer getResult(Integer accumulator) { return accumulator; } @Override public Integer merge(Integer a, Integer b) { return null; } } /** * 泛型如下： * 第一个：输入范例 = 增量函数的输出 count值，Integer * 第二个：输出范例 = Tuple3(vc，count，windowEnd) ,带上窗口结束时间的标签 * 第三个：key范例， vc，Integer * 第四个：窗口范例 */ public static class WindowResult extends ProcessWindowFunction<Integer, Tuple3<Integer, Integer, Long>, Integer, TimeWindow> { @Override public void process(Integer key, Context context, Iterable<Integer> elements, Collector<Tuple3<Integer, Integer, Long>> out) throws Exception { // 迭代器内里只有一条数据，next一次即可 Integer count = elements.iterator().next(); long windowEnd = context.window().getEnd(); out.collect(Tuple3.of(key, count, windowEnd)); } } public static class TopN extends KeyedProcessFunction<Long, Tuple3<Integer, Integer, Long>, String> { // 存不同学口的统计结果，key=windowEnd，value=list数据 private Map<Long, List<Tuple3<Integer, Integer, Long>>> dataListMap; // 要取的Top数目 private int threshold; public TopN(int threshold) { this.threshold = threshold; dataListMap = new HashMap<>(); } @Override public void processElement(Tuple3<Integer, Integer, Long> value, Context ctx, Collector<String> out) throws Exception { // 进入这个方法，只是一条数据，要排序，得到齐才行 ===》存起来，不同学口分开存 // 1. 存到HashMap中 Long windowEnd = value.f2; if (dataListMap.containsKey(windowEnd)) { // 1.1 包罗vc，不是该vc的第一条，直接添加到List中 List<Tuple3<Integer, Integer, Long>> dataList = dataListMap.get(windowEnd); dataList.add(value); } else { // 1.1 不包罗vc，是该vc的第一条，需要初始化list List<Tuple3<Integer, Integer, Long>> dataList = new ArrayList<>(); dataList.add(value); dataListMap.put(windowEnd, dataList); } // 2. 注册一个定时器， windowEnd+1ms即可（ // 同一个窗口范围，应该同时输出，只不外是一条一条调用processElement方法，只需要延迟1ms即可 ctx.timerService().registerEventTimeTimer(windowEnd + 1); } @Override public void onTimer(long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception { super.onTimer(timestamp, ctx, out); // 定时器触发，同一个窗口范围的计算结果攒齐了，开始排序、取TopN Long windowEnd = ctx.getCurrentKey(); // 1. 排序 List<Tuple3<Integer, Integer, Long>> dataList = dataListMap.get(windowEnd); dataList.sort(new Comparator<Tuple3<Integer, Integer, Long>>() { @Override public int compare(Tuple3<Integer, Integer, Long> o1, Tuple3<Integer, Integer, Long> o2) { // 降序，后减前 return o2.f1 - o1.f1; } }); // 2. 取TopN StringBuilder outStr = new StringBuilder(); outStr.append("================================\n"); // 遍历排序后的 List，取出前 threshold 个，考虑可能List不够2个的情况 ==》 List中元素的个数和 2 取最小值 for (int i = 0; i < Math.min(threshold, dataList.size()); i++) { Tuple3<Integer, Integer, Long> vcCount = dataList.get(i); outStr.append("Top" + (i + 1) + "\n"); outStr.append("vc=" + vcCount.f0 + "\n"); outStr.append("count=" + vcCount.f1 + "\n"); outStr.append("窗口结束时间=" + vcCount.f2 + "\n"); outStr.append("================================\n"); } // 用完的List，及时清算，节省资源 dataList.clear(); out.collect(outStr.toString()); } }}

复制代码

E 侧输出流（Side Output）

处置处罚函数另有别的一个特有功能，就是将自界说的数据放入“侧输出流”（side output）输出。这个概念我们并不陌生，之前在讲到窗口处置处罚迟到数据时，最后一招就是输出到侧输出流。而这种处置处罚方式的本质，实在就是处置处罚函数的侧输出流功能。
我们之前讲到的绝大多数转换算子，输出的都是单一流，流里的数据范例只能有一种。而侧输出流可以以为是“主流”上分叉出的“支流”，所以可以由一条流产生出多条流，而且这些流中的数据范例还可以不一样。利用这个功能可以很轻易地实现“分流”操作。
具体应用时，只要在处置处罚函数的.processElement()大概.onTimer()方法中，调用上下文的.output()方法就可以了。

DataStream<Integer> stream = env.fromSource(...);OutputTag<String> outputTag = new OutputTag<String>("side-output") {};SingleOutputStreamOperator<Long> longStream = stream.process(new ProcessFunction<Integer, Long>() { @Override public void processElement( Integer value, Context ctx, Collector<Integer> out) throws Exception { // 转换成Long，输出到主流中 out.collect(Long.valueOf(value)); // 转换成String，输出到侧输出流中 ctx.output(outputTag, "side-output: " + String.valueOf(value)); }});```javascript这里output()方法需要传入两个参数，第一个是一个“输出标签”OutputTag，用来标识侧输出流，一般会在外部同一声明；第二个就是要输出的数据。我们可以在外部先将OutputTag声明出来：OutputTag<String> outputTag = new OutputTag<String>("side-output") {};假如想要获取这个侧输出流，可以基于处置处罚之后的DataStream直接调用.getSideOutput()方法，传入对应的OutputTag，这个方式与窗口API中获取侧输出流是完全一样的。DataStream<String> stringStream = longStream.getSideOutput(outputTag);## 案例需求：对每个传感器，水位高出10的输出告警信息代码如下：```javascriptpublic class SideOutputDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); OutputTag<String> warnTag = new OutputTag<>("warn", Types.STRING); SingleOutputStreamOperator<WaterSensor> process = sensorDS.keyBy(sensor -> sensor.getId()) .process( new KeyedProcessFunction<String, WaterSensor, WaterSensor>() { @Override public void processElement(WaterSensor value, Context ctx, Collector<WaterSensor> out) throws Exception { // 使用侧输出流告警 if (value.getVc() > 10) { ctx.output(warnTag, "当前水位=" + value.getVc() + ",大于阈值10！！！"); } // 主流正常发送数据 out.collect(value); } } ); process.print("主流"); process.getSideOutput(warnTag).printToErr("warn"); env.execute();
}}

复制代码

8 Flink 状态管理

A Flink中的状态

状态的分类

1）托管状态（Managed State）和原始状态（Raw State）
Flink的状态有两种：托管状态（Managed State）和原始状态（Raw State）。托管状态就是由Flink同一管理的，状态的存储访问、故障恢复和重组等一系列问题都由Flink实现，我们只要调接口就可以；而原始状态则是自界说的，相当于就是开辟了一块内存，需要我们自己管理，实现状态的序列化和故障恢复。
通常我们采用Flink托管状态来实现需求。
2）算子状态（Operator State）和按键分区状态（Keyed State）
接下来我们的重点就是托管状态（Managed State）。
我们知道在Flink中，一个算子任务会按照并行度分为多个并行子任务执行，而不同的子任务会占据不同的任务槽（task slot）。由于不同的slot在计算资源上是物理隔离的，所以Flink能管理的状态在并行任务间是无法共享的，每个状态只能针对当前子任务的实例有效。
而很多有状态的操作（比如聚合、窗口）都是要先做keyBy进行按键分区的。按键分区之后，任务所进行的所有计算都应该只针对当前key有效，所以状态也应该按照key相互隔离。在这种情况下，状态的访问方式又会有所不同。
基于如许的想法，我们又可以将托管状态分为两类：算子状态和按键分区状态。

别的，也可以通过富函数类（Rich Function）来自界说Keyed State，所以只要提供了富函数类接口的算子，也都可以使用Keyed State。所以即使是map、filter如许无状态的基本转换算子，我们也可以通过富函数类给它们“追加”Keyed State。比如RichMapFunction、RichFilterFunction。在富函数中，我们可以调用.getRuntimeContext()获取当前的运行时上下文（RuntimeContext），进而获取到访问状态的句柄；这种富函数中自界说的状态也是Keyed State。从这个角度讲，Flink中所有的算子都可以是有状态的。
无论是Keyed State还是Operator State，它们都是在本地实例上维护的，也就是说每个并行子任务维护着对应的状态，算子的子任务之间状态不共享。
B 按键分区状态（Keyed State）

按键分区状态（Keyed State）顾名思义，是任务按照键（key）来访问和维护的状态。它的特点非常光显，就是以key为作用范围进行隔离。
需要留意，使用Keyed State必须基于KeyedStream。没有进行keyBy分区的DataStream，即使转换算子实现了对应的富函数类，也不能通过运行时上下文访问Keyed State。
8.2.1 值状态（ValueState）

顾名思义，状态中只生存一个“值”（value）。ValueState自己是一个接口，源码中界说如下：

public interface ValueState<T> extends State {
T value() throws IOException;
void update(T value) throws IOException;
}

复制代码

这里的T是泛型，表现状态的数据内容可以是任何具体的数据范例。假如想要生存一个长整型值作为状态，那么范例就是ValueState。
我们可以在代码中读写值状态，实现对于状态的访问和更新。
T value()：获取当前状态的值；
update(T value)：对状态进行更新，传入的参数value就是要覆写的状态值。
在具体使用时，为了让运行时上下文清楚到底是哪个状态，我们还需要创建一个“状态描述器”（StateDescriptor）来提供状态的基本信息。例如源码中，ValueState的状态描述器构造方法如下：

public ValueStateDescriptor(String name, Class<T> typeClass) {
super(name, typeClass, null);
}

复制代码

这里需要传入状态的名称和范例——这跟我们声明一个变量时做的事情完全一样。
案例需求：检测每种传感器的水位值，假如一连的两个水位值高出10，就输出报警。

public class KeyedValueStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); sensorDS.keyBy(r -> r.getId()) .process( new KeyedProcessFunction<String, WaterSensor, String>() { // TODO 1.界说状态 ValueState<Integer> lastVcState; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); // TODO 2.在open方法中，初始化状态 // 状态描述器两个参数：第一个参数，起个名字，不重复；第二个参数，存储的范例 lastVcState = getRuntimeContext().getState(new ValueStateDescriptor<Integer>("lastVcState", Types.INT)); } @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception {// lastVcState.value(); // 取出本组值状态的数据// lastVcState.update(); // 更新本组值状态的数据// lastVcState.clear(); // 扫除本组值状态的数据 // 1. 取出上一条数据的水位值(Integer默认值是null，判断) int lastVc = lastVcState.value() == null ? 0 : lastVcState.value(); // 2. 求差值的绝对值，判断是否高出10 Integer vc = value.getVc(); if (Math.abs(vc - lastVc) > 10) { out.collect("传感器=" + value.getId() + "==>当前水位值=" + vc + ",与上一条水位值=" + lastVc + ",相差高出10！！！！"); } // 3. 更新状态里的水位值 lastVcState.update(vc); } } ) .print(); env.execute();
}}

复制代码

8.2.2 列表状态（ListState）

将需要生存的数据，以列表（List）的形式组织起来。在ListState接口中同样有一个范例参数T，表现列表中数据的范例。ListState也提供了一系列的方法来操作状态，使用方式与一般的List非常相似。
Iterable get()：获取当前的列表状态，返回的是一个可迭代范例Iterable；
update(List values)：传入一个列表values，直接对状态进行覆盖；
add(T value)：在状态列表中添加一个元素value；
addAll(List values)：向列表中添加多个元素，以列表values形式传入。
雷同地，ListState的状态描述器就叫作ListStateDescriptor，用法跟ValueStateDescriptor完全同等。
案例:针对每种传感器输出最高的3个水位值

public class KeyedListStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); sensorDS.keyBy(r -> r.getId()) .process( new KeyedProcessFunction<String, WaterSensor, String>() { ListState<Integer> vcListState; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); vcListState = getRuntimeContext().getListState(new ListStateDescriptor<Integer>("vcListState", Types.INT)); } @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception { // 1.来一条，存到list状态里 vcListState.add(value.getVc()); // 2.从list状态拿出来(Iterable)，拷贝到一个List中，排序，只留3个最大的 Iterable<Integer> vcListIt = vcListState.get(); // 2.1 拷贝到List中 List<Integer> vcList = new ArrayList<>(); for (Integer vc : vcListIt) { vcList.add(vc); } // 2.2 对List进行降序排序 vcList.sort((o1, o2) -> o2 - o1); // 2.3 只生存最大的3个(list中的个数一定是一连变大，一高出3就立即清算即可) if (vcList.size() > 3) { // 将最后一个元素扫除（第4个） vcList.remove(3); } out.collect("传感器id为" + value.getId() + ",最大的3个水位值=" + vcList.toString()); // 3.更新list状态 vcListState.update(vcList);// vcListState.get(); //取出 list状态本组的数据，是一个Iterable// vcListState.add(); // 向 list状态本组添加一个元素// vcListState.addAll(); // 向 list状态本组添加多个元素// vcListState.update(); // 更新 list状态本组数据（覆盖）// vcListState.clear(); // 清空List状态本组数据 } } ) .print(); env.execute();
}}

复制代码

8.2.3 Map状态（MapState）

把一些键值对（key-value）作为状态整体生存起来，可以以为就是一组key-value映射的列表。对应的MapState<UK, UV>接口中，就会有UK、UV两个泛型，分别表现生存的key和value的范例。同样，MapState提供了操作映射状态的方法，与Map的使用非常雷同。
UV get(UK key)：传入一个key作为参数，查询对应的value值；
put(UK key, UV value)：传入一个键值对，更新key对应的value值；
putAll(Map<UK, UV> map)：将传入的映射map中所有的键值对，全部添加到映射状态中；
remove(UK key)：将指定key对应的键值对删除；
boolean contains(UK key)：判断是否存在指定的key，返回一个boolean值。
别的，MapState也提供了获取整个映射相干信息的方法；
Iterable<Map.Entry<UK, UV>> entries()：获取映射状态中所有的键值对；
Iterable keys()：获取映射状态中所有的键（key），返回一个可迭代Iterable范例；
Iterable values()：获取映射状态中所有的值（value），返回一个可迭代Iterable范例；
boolean isEmpty()：判断映射是否为空，返回一个boolean值。
案例需求：统计每种传感器每种水位值出现的次数。

public class KeyedMapStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); sensorDS.keyBy(r -> r.getId()) .process( new KeyedProcessFunction<String, WaterSensor, String>() { MapState<Integer, Integer> vcCountMapState; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); vcCountMapState = getRuntimeContext().getMapState(new MapStateDescriptor<Integer, Integer>("vcCountMapState", Types.INT, Types.INT)); } @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception { // 1.判断是否存在vc对应的key Integer vc = value.getVc(); if (vcCountMapState.contains(vc)) { // 1.1 假如包罗这个vc的key，直接对value+1 Integer count = vcCountMapState.get(vc); vcCountMapState.put(vc, ++count); } else { // 1.2 假如不包罗这个vc的key，初始化put进去 vcCountMapState.put(vc, 1); } // 2.遍历Map状态，输出每个k-v的值 StringBuilder outStr = new StringBuilder(); outStr.append("======================================\n"); outStr.append("传感器id为" + value.getId() + "\n"); for (Map.Entry<Integer, Integer> vcCount : vcCountMapState.entries()) { outStr.append(vcCount.toString() + "\n"); } outStr.append("======================================\n"); out.collect(outStr.toString());// vcCountMapState.get(); // 对本组的Map状态，根据key，获取value// vcCountMapState.contains(); // 对本组的Map状态，判断key是否存在// vcCountMapState.put(, ); // 对本组的Map状态，添加一个键值对// vcCountMapState.putAll(); // 对本组的Map状态，添加多个键值对// vcCountMapState.entries(); // 对本组的Map状态，获取所有键值对// vcCountMapState.keys(); // 对本组的Map状态，获取所有键// vcCountMapState.values(); // 对本组的Map状态，获取所有值// vcCountMapState.remove(); // 对本组的Map状态，根据指定key，移除键值对// vcCountMapState.isEmpty(); // 对本组的Map状态，判断是否为空// vcCountMapState.iterator(); // 对本组的Map状态，获取迭代器// vcCountMapState.clear(); // 对本组的Map状态，清空 } } ) .print(); env.execute();
}}

复制代码

8.2.4 归约状态（ReducingState）

雷同于值状态（Value），不外需要对添加进来的所有数据进行归约，将归约聚合之后的值作为状态生存下来。ReducingState这个接口调用的方法雷同于ListState，只不外它生存的只是一个聚合值，所以调用.add()方法时，不是在状态列表里添加元素，而是直接把新数据和之前的状态进行归约，并用得到的结果更新状态。
归约逻辑的界说，是在归约状态描述器（ReducingStateDescriptor）中，通过传入一个归约函数（ReduceFunction）来实现的。这里的归约函数，就是我们之前介绍reduce聚合算子时讲到的ReduceFunction，所以状态范例跟输入的数据范例是一样的。

public ReducingStateDescriptor(
String name, ReduceFunction<T> reduceFunction, Class<T> typeClass) {...}

复制代码

这里的描述器有三个参数，其中第二个参数就是界说了归约聚合逻辑的ReduceFunction，别的两个参数则是状态的名称和范例。
案例：计算每种传感器的水位和
…

.process(new KeyedProcessFunction<String， WaterSensor， Integer>() {
private ReducingState<Integer> sumVcState;
@Override
public void open(Configuration parameters) throws Exception {
sumVcState = this
.getRuntimeContext()
.getReducingState(new ReducingStateDescriptor<Integer>("sumVcState"，Integer::sum，Integer.class));
}
@Override
public void processElement(WaterSensor value， Context ctx， Collector<Integer> out) throws Exception {
sumVcState.add(value.getVc());
out.collect(sumVcState.get());
}
})

复制代码

8.2.5 聚合状态（AggregatingState）

与归约状态非常雷同，聚合状态也是一个值，用来生存添加进来的所有数据的聚合结果。与ReducingState不同的是，它的聚合逻辑是由在描述器中传入一个更加一般化的聚合函数（AggregateFunction）来界说的；这也就是之前我们讲过的AggregateFunction，内里通过一个累加器（Accumulator）来表现状态，所以聚合的状态范例可以跟添加进来的数据范例完全不同，使用更加灵活。
同样地，AggregatingState接口调用方法也与ReducingState雷同，调用.add()方法添加元素时，会直接使用指定的AggregateFunction进行聚合并更新状态。
案例需求：计算每种传感器的平均水位

public class KeyedAggregatingStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); sensorDS.keyBy(r -> r.getId()) .process( new KeyedProcessFunction<String, WaterSensor, String>() { AggregatingState<Integer, Double> vcAvgAggregatingState; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); vcAvgAggregatingState = getRuntimeContext() .getAggregatingState( new AggregatingStateDescriptor<Integer, Tuple2<Integer, Integer>, Double>( "vcAvgAggregatingState", new AggregateFunction<Integer, Tuple2<Integer, Integer>, Double>() { @Override public Tuple2<Integer, Integer> createAccumulator() { return Tuple2.of(0, 0); } @Override public Tuple2<Integer, Integer> add(Integer value, Tuple2<Integer, Integer> accumulator) { return Tuple2.of(accumulator.f0 + value, accumulator.f1 + 1); } @Override public Double getResult(Tuple2<Integer, Integer> accumulator) { return accumulator.f0 * 1D / accumulator.f1; } @Override public Tuple2<Integer, Integer> merge(Tuple2<Integer, Integer> a, Tuple2<Integer, Integer> b) {// return Tuple2.of(a.f0 + b.f0, a.f1 + b.f1); return null; } }, Types.TUPLE(Types.INT, Types.INT)) ); } @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception { // 将水位值添加到聚合状态中 vcAvgAggregatingState.add(value.getVc()); // 从聚合状态中获取结果 Double vcAvg = vcAvgAggregatingState.get(); out.collect("传感器id为" + value.getId() + ",平均水位值=" + vcAvg);// vcAvgAggregatingState.get(); // 对本组的聚合状态获取结果// vcAvgAggregatingState.add(); // 对本组的聚合状态添加数据，会自动进行聚合// vcAvgAggregatingState.clear(); // 对本组的聚合状态清空数据 } } ) .print(); env.execute();
}}

复制代码

8.2.6 状态生存时间（TTL）

在实际应用中，很多状态会随着时间的推移逐渐增长，假如不加以限定，终极就会导致存储空间的耗尽。一个优化的思路是直接在代码中调用.clear()方法去扫除状态，但是有时间我们的逻辑要求不能直接扫除。这时就需要配置一个状态的“生存时间”（time-to-live，TTL），当状态在内存中存在的时间超出这个值时，就将它扫除。
具体实现上，假如用一个进程不停地扫描所有状态看是否过期，显然会占用大量资源做无用功。状态的失效实在不需要立即删除，所以我们可以给状态附加一个属性，也就是状态的“失效时间”。状态创建的时间，设置失效时间 = 当前时间 + TTL；之后假如有对状态的访问和修改，我们可以再对失效时间进行更新；当设置的扫除条件被触发时（比如，状态被访问的时间，大概每隔一段时间扫描一次失效状态），就可以判断状态是否失效、从而进行扫除了。
配置状态的TTL时，需要创建一个StateTtlConfig配置对象，然后调用状态描述器的.enableTimeToLive()方法启动TTL功能。

StateTtlConfig ttlConfig = StateTtlConfig
.newBuilder(Time.seconds(10))
.setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
.setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
.build();
ValueStateDescriptor<String> stateDescriptor = new ValueStateDescriptor<>("my state", String.class);
stateDescriptor.enableTimeToLive(ttlConfig);

复制代码

这里用到了几个配置项：
.newBuilder()
状态TTL配置的构造器方法，必须调用，返回一个Builder之后再调用.build()方法就可以得到StateTtlConfig了。方法需要传入一个Time作为参数，这就是设定的状态生存时间。
.setUpdateType()
设置更新范例。更新范例指定了什么时间更新状态失效时间，这里的OnCreateAndWrite表现只有创建状态和更改状态（写操作）时更新失效时间。另一种范例OnReadAndWrite则表现无论读写操作都会更新失效时间，也就是只要对状态进行了访问，就表明它是活跃的，从而延伸生存时间。这个配置默以为OnCreateAndWrite。
.setStateVisibility()
设置状态的可见性。所谓的“状态可见性”，是指由于扫除操作并不是实时的，所以当状态过期之后另有可能继续存在，这时假如对它进行访问，能否正常读取到就是一个问题了。这里设置的NeverReturnExpired是默认举动，表现从不返回过期值，也就是只要过期就以为它已经被扫除了，应用不能继续读取；这在处置处罚会话大概隐私数据时比较重要。对应的另一种配置是ReturnExpireDefNotCleanedUp，就是假如过期状态还存在，就返回它的值。
除此之外，TTL配置还可以设置在生存检查点（checkpoint）时触发扫除操作，大概配置增量的清算（incremental cleanup），还可以针对RocksDB状态后端使用压缩过滤器（compaction filter）进行后台清算。这里需要留意，目前的TTL设置只支持处置处罚时间。

public class StateTTLDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1); SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()) .assignTimestampsAndWatermarks( WatermarkStrategy .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((element, ts) -> element.getTs() * 1000L) ); sensorDS.keyBy(r -> r.getId()) .process( new KeyedProcessFunction<String, WaterSensor, String>() { ValueState<Integer> lastVcState; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); // TODO 1.创建 StateTtlConfig StateTtlConfig stateTtlConfig = StateTtlConfig .newBuilder(Time.seconds(5)) // 过期时间5s// .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) // 状态创建和写入（更新）更新过期时间 .setUpdateType(StateTtlConfig.UpdateType.OnReadAndWrite) // 状态读取、创建和写入（更新）更新过期时间 .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) // 不返回过期的状态值 .build(); // TODO 2.状态描述器启用 TTL ValueStateDescriptor<Integer> stateDescriptor = new ValueStateDescriptor<>("lastVcState", Types.INT); stateDescriptor.enableTimeToLive(stateTtlConfig); this.lastVcState = getRuntimeContext().getState(stateDescriptor); } @Override public void processElement(WaterSensor value, Context ctx, Collector<String> out) throws Exception { // 先获取状态值，打印 ==》读取状态 Integer lastVc = lastVcState.value(); out.collect("key=" + value.getId() + ",状态值=" + lastVc); // 假如水位大于10，更新状态值 ===》写入状态 if (value.getVc() > 10) { lastVcState.update(value.getVc()); } } } ) .print(); env.execute();
}}

复制代码

C 算子状态（Operator State）

算子状态（Operator State）就是一个算子并行实例上界说的状态，作用范围被限定为当前算子任务。算子状态跟数据的key无关，所以不同key的数据只要被分发到同一个并行子任务，就会访问到同一个Operator State。
算子状态的实际应用场景不如Keyed State多，一般用在Source或Sink等与外部系统连接的算子上，大概完全没有key界说的场景。比如Flink的Kafka连接器中，就用到了算子状态。
当算子的并行度发生变化时，算子状态也支持在并行的算子任务实例之间做重组分配。根据状态的范例不同，重组分配的方案也会不同。
算子状态也支持不同的布局范例，重要有三种：ListState、UnionListState和BroadcastState。
8.3.1 列表状态（ListState）

与Keyed State中的ListState一样，将状态表现为一组数据的列表。
与Keyed State中的列表状态的区别是：在算子状态的上下文中，不会按键（key）分别处置处罚状态，所以每一个并行子任务上只会生存一个“列表”（list），也就是当前并行子任务上所有状态项的聚集。列表中的状态项就是可以重新分配的最细粒度，相互之间完全独立。
当算子并行度进行缩放调解时，算子的列表状态中的所有元素项会被同一网络起来，相当于把多个分区的列表合并成了一个“大列表”，然后再均匀地分配给所有并行任务。这种“均匀分配”的具体方法就是“轮询”（round-robin），与之前介绍的rebanlance数据传输方式雷同，是通过逐一“发牌”的方式将状态项平均分配的。这种方式也叫作“平均分割重组”（even-split redistribution）。
算子状态中不会存在“键组”（key group）如许的布局，所以为了方便重组分配，就把它直接界说成了“列表”（list）。这也就解释了，为什么算子状态中没有最简朴的值状态（ValueState）。
案例实操：在map算子中计算数据的个数。

public class OperatorListStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); env .socketTextStream("hadoop102", 7777) .map(new MyCountMapFunction()) .print(); env.execute();
} // TODO 1.实现 CheckpointedFunction 接口 public static class MyCountMapFunction implements MapFunction<String, Long>, CheckpointedFunction { private Long count = 0L; private ListState<Long> state; @Override public Long map(String value) throws Exception { return ++count; } /** * TODO 2.本地变量持久化：将本地变量拷贝到算子状态中,开启checkpoint时才会调用 * * @param context * @throws Exception */ @Override public void snapshotState(FunctionSnapshotContext context) throws Exception { System.out.println("snapshotState..."); // 2.1 清空算子状态 state.clear(); // 2.2 将本地变量添加到算子状态中 state.add(count); } /** * TODO 3.初始化本地变量：程序启动和恢复时，从状态中把数据添加到本地变量，每个子任务调用一次 * * @param context * @throws Exception */ @Override public void initializeState(FunctionInitializationContext context) throws Exception { System.out.println("initializeState..."); // 3.1 从上下文初始化算子状态 state = context .getOperatorStateStore() .getListState(new ListStateDescriptor<Long>("state", Types.LONG)); // 3.2 从算子状态中把数据拷贝到本地变量 if (context.isRestored()) { for (Long c : state.get()) { count += c; } } } }}

复制代码

8.3.2 联合列表状态（UnionListState）

与ListState雷同，联合列表状态也会将状态表现为一个列表。它与常规列表状态的区别在于，算子并行度进行缩放调解时对于状态的分配方式不同。
UnionListState的重点就在于“联合”（union）。在并行度调解时，常规列表状态是轮询分配状态项，而联合列表状态的算子则会直接广播状态的完备列表。如许，并行度缩放之后的并行子任务就获取到了联合后完备的“大列表”，可以自行选择要使用的状态项和要丢弃的状态项。这种分配也叫作“联合重组”（union redistribution）。假如列表中状态项数目太多，为资源和服从考虑一般不建议使用联合重组的方式。
使用方式同ListState，区别在如下标红部门：

state = context
.getOperatorStateStore()
.getUnionListState(new ListStateDescriptor<Long>("union-state", Types.LONG));

复制代码

8.3.3 广播状态（BroadcastState）

有时我们希望算子并行子任务都保持同一份“全局”状态，用来做同一的配置和规则设定。这时所有分区的所有数据都会访问到同一个状态，状态就像被“广播”到所有分区一样，这种特殊的算子状态，就叫作广播状态（BroadcastState）。
由于广播状态在每个并行子任务上的实例都一样，所以在并行度调解的时间就比较简朴，只要复制一份到新的并行任务就可以实现扩展；而对于并行度缩小的情况，可以将多余的并行子任务连同状态直接砍掉——由于状态都是复制出来的，并不会丢失。
案例实操：水位高出指定的阈值发送告警，阈值可以动态修改。

public class OperatorBroadcastStateDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2); // 数据流 SingleOutputStreamOperator<WaterSensor> sensorDS = env .socketTextStream("hadoop102", 7777) .map(new WaterSensorMapFunction()); // 配置流（用来广播配置） DataStreamSource<String> configDS = env.socketTextStream("hadoop102", 8888); // TODO 1. 将配置流广播 MapStateDescriptor<String, Integer> broadcastMapState = new MapStateDescriptor<>("broadcast-state", Types.STRING, Types.INT); BroadcastStream<String> configBS = configDS.broadcast(broadcastMapState); // TODO 2.把数据流和广播后的配置流 connect BroadcastConnectedStream<WaterSensor, String> sensorBCS = sensorDS.connect(configBS); // TODO 3.调用 process sensorBCS .process( new BroadcastProcessFunction<WaterSensor, String, String>() { /** * 数据流的处置处罚方法：数据流只能读取广播状态，不能修改 * @param value * @param ctx * @param out * @throws Exception */ @Override public void processElement(WaterSensor value, ReadOnlyContext ctx, Collector<String> out) throws Exception { // TODO 5.通过上下文获取广播状态，取出内里的值（只读，不能修改） ReadOnlyBroadcastState<String, Integer> broadcastState = ctx.getBroadcastState(broadcastMapState); Integer threshold = broadcastState.get("threshold"); // 判断广播状态里是否有数据，由于刚启动时，可能是数据流的第一条数据先来 threshold = (threshold == null ? 0 : threshold); if (value.getVc() > threshold) { out.collect(value + ",水位高出指定的阈值：" + threshold + "!!!"); } } /** * 广播后的配置流的处置处罚方法: 只有广播流才能修改广播状态 * @param value * @param ctx * @param out * @throws Exception */ @Override public void processBroadcastElement(String value, Context ctx, Collector<String> out) throws Exception { // TODO 4. 通过上下文获取广播状态，往内里写数据 BroadcastState<String, Integer> broadcastState = ctx.getBroadcastState(broadcastMapState); broadcastState.put("threshold", Integer.valueOf(value)); } } ) .print(); env.execute();
}}

复制代码

D 状态后端（State Backends）

在Flink中，状态的存储、访问以及维护，都是由一个可插拔的组件决定的，这个组件就叫作状态后端（state backend）。状态后端重要负责管理本地状态的存储方式和位置。
8.4.1 状态后端的分类（HashMapStateBackend/RocksDB）

状态后端是一个“开箱即用”的组件，可以在不改变应用程序逻辑的情况下独立配置。Flink中提供了两类不同的状态后端，
一种是“哈希表状态后端”（HashMapStateBackend），
另一种是“内嵌RocksDB状态后端”（EmbeddedRocksDBStateBackend）。
假如没有特别配置，系统默认的状态后端是HashMapStateBackend。
（1）哈希表状态后端（HashMapStateBackend）
HashMapStateBackend是把状态存放在内存里。具体实现上，哈希表状态后端在内部会直接把状态当作对象（objects），生存在Taskmanager的JVM堆上。普通的状态，以及窗口中网络的数据和触发器，都会以键值对的形式存储起来，所以底层是一个哈希表（HashMap），这种状态后端也因此得名。
（2）内嵌RocksDB状态后端（EmbeddedRocksDBStateBackend）
RocksDB是一种内嵌的key-value存储介质，可以把数据持久化到本地硬盘。配置EmbeddedRocksDBStateBackend后，会将处置处罚中的数据全部放入RocksDB数据库中，RocksDB默认存储在TaskManager的本地数据目次里。
RocksDB的状态数据被存储为序列化的字节数组，读写操作需要序列化/反序列化，因此状态的访问性能要差一些。别的，由于做了序列化，key的比较也会按照字节进行，而不是直接调用.hashCode()和.equals()方法。
EmbeddedRocksDBStateBackend始终执行的是异步快照，所以不会由于生存检查点而阻塞数据的处置处罚；而且它还提供了增量式生存检查点的机制，这在很多情况下可以大大提升生存服从。
8.4.2 如何选择正确的状态后端

HashMap和RocksDB两种状态后端最大的区别，就在于本地状态存放在那里。
HashMapStateBackend是内存计算，读写速率非常快；但是，状态的大小会受到集群可用内存的限定，假如应用的状态随着时间不停地增长，就会耗尽内存资源。
而RocksDB是硬盘存储，所以可以根据可用的磁盘空间进行扩展，所以它非常适合于超级海量状态的存储。不外由于每个状态的读写都需要做序列化/反序列化，而且可能需要直接从磁盘读取数据，这就会导致性能的低落，平均读写性能要比HashMapStateBackend慢一个数目级。
8.4.3 状态后端的配置

在不做配置的时间，应用程序使用的默认状态后端是由集群配置文件flink-conf.yaml中指定的，配置的键名称为state.backend。这个默认配置对集群上运行的所有作业都有效，我们可以通过更改配置值来改变默认的状态后端。别的，我们还可以在代码中为当前作业单独配置状态后端，这个配置会覆盖掉集群配置文件的默认值。
（1）配置默认的状态后端
在flink-conf.yaml中，可以使用state.backend来配置默认状态后端。
配置项的可能值为hashmap，如许配置的就是HashMapStateBackend；假如配置项的值是rocksdb，如许配置的就是EmbeddedRocksDBStateBackend。
下面是一个配置HashMapStateBackend的例子：

# 默认状态后端
state.backend: hashmap
# 存放检查点的文件路径
state.checkpoints.dir: hdfs://hadoop102:8020/flink/checkpoints

复制代码

这里的state.checkpoints.dir配置项，界说了检查点和元数据写入的目次。
（2）为每个作业（Per-job/Application）单独配置状态后端
通过执行环境设置，HashMapStateBackend。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(new HashMapStateBackend());

复制代码

通过执行环境设置，EmbeddedRocksDBStateBackend。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(new EmbeddedRocksDBStateBackend());

复制代码

需要留意，假如想在IDE中使用EmbeddedRocksDBStateBackend，需要为Flink项目添加依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-statebackend-rocksdb</artifactId>
<version>${flink.version}</version>
</dependency>

复制代码

而由于Flink发行版中默认就包罗了RocksDB(服务器上解压的Flink)，所以只要我们的代码中没有使用RocksDB的相干内容，就不需要引入这个依赖。
补充

我们前面写的 wordcount 的例子，没有包罗状态管理。假如一个task在处置处罚过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处置处罚的语义上(at least once, exactly once)，Flink引入了state和checkpoint。
因此可以说flink由于引入了state和checkpoint所以才支持的exactly once
起首区分一下两个概念：
state：
state一般指一个具体的task/operator的状态：
state数据默认生存在java的堆内存中，TaskManage节点的内存中。
operator表现一些算子在运行的过程中会产生的一些中心结果。
checkpoint：
checkpoint可以理解为checkpoint是把state数据定时持久化存储了，则表现了一个Flink Job在一个特定时候的一份全局状态快照，即包罗了所有task/operator的状态。
留意：task(subTask)是Flink中执行的基本单元。operator指算子(transformation)
State可以被记载，在失败的情况下数据还可以恢复。
Flink中有两种基本范例的State：
Keyed State
Operator State
Keyed State和Operator State，可以以两种形式存在：
原始状态(raw state)
托管状态(managed state)
托管状态是由Flink框架管理的状态。
我们说operator算子生存了数据的中心结果，中心结果生存在什么范例中，假如我们这里是托管状态，则由flink框架自行管理
原始状态由用户自行管理状态具体的数据布局，框架在做checkpoint的时间，使用byte[]来读写状态内容，对其内部数据布局一无所知。
通常在DataStream上的状态保举使用托管的状态，当实现一个用户自界说的operator时，会使用到原始状态。
1. State-Keyed State

基于KeyedStream上的状态。这个状态是跟特定的key绑定的，对KeyedStream流上的每一个key，都对应一个state，比如：stream.keyBy(…)。KeyBy之后的Operator State,可以理解为分区过的Operator State。
生存state的数据布局：
ValueState：即范例为T的单值状态。这个状态与对应的key绑定，是最简朴的状态了。它可以通过update方法更新状态值，通过value()方法获取状态值。
ListState：即key上的状态值为一个列表。可以通过add方法往列表中附加值；也可以通过get()方法返回一个Iterable来遍历状态值。
ReducingState:这种状态通过用户传入的reduceFunction，每次调用add方法添加值的时间，会调用reduceFunction，最后合并到一个单一的状态值。
MapState<UK, UV>:即状态值为一个map。用户通过put或putAll方法添加元素。
需要留意的是，以上所述的State对象，仅仅用于与状态进行交互（更新、删除、清空等），而真正的状态值，有可能是存在内存、磁盘、大概其他分布式存储系统中。相当于我们只是持有了这个状态的句柄。

ValueState
使用ValueState生存中心结果对下面数据进行分组求和。
开辟步骤：
获取流处置处罚执行环境
加载数据源
数据分组
数据转换，界说ValueState,生存中心结果
数据打印
触发执行
ValueState:测试数据源：

List(
(1L, 4L),
(2L, 3L),
(3L, 1L),
(1L, 2L),
(3L, 2L),
(1L, 2L),
(2L, 2L),
(2L, 9L)
)

复制代码

示例代码：

import org.apache.flink.api.common.functions.RichFlatMapFunction
import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}
import org.apache.flink.api.common.typeinfo.{TypeHint, TypeInformation}
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
import org.apache.flink.util.Collector
object TestKeyedState {
class CountWithKeyedState extends RichFlatMapFunction[(Long, Long), (Long, Long)] {
/**
* ValueState状态句柄. 第一个值为count，第二个值为sum。
*/
private var sum: ValueState[(Long, Long)] = _
override def flatMap(input: (Long, Long), out: Collector[(Long, Long)]): Unit = {
// 获取当前状态值
val tmpCurrentSum: (Long, Long) = sum.value
// 状态默认值
val currentSum = if (tmpCurrentSum != null) {
tmpCurrentSum
} else {
(0L, 0L)
}
// 更新
val newSum = (currentSum._1 + 1, currentSum._2 + input._2)
// 更新状态值
sum.update(newSum)
// 如果count >=3 清空状态值，重新计算
if (newSum._1 >= 3) {
out.collect((input._1, newSum._2 / newSum._1))
sum.clear()
}
}
override def open(parameters: Configuration): Unit = {
sum = getRuntimeContext.getState(
new ValueStateDescriptor[(Long, Long)]("average", // 状态名称
TypeInformation.of(new TypeHint[(Long, Long)](){}) )// 状态类型
)
}
}
def main(args: Array[String]): Unit = {
//初始化执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//构建数据源
val inputStream: DataStream[(Long, Long)] = env.fromCollection(
List(
(1L, 4L),
(2L, 3L),
(3L, 1L),
(1L, 2L),
(3L, 2L),
(1L, 2L),
(2L, 2L),
(2L, 9L))
)
//执行数据处理
inputStream.keyBy(0)
.flatMap(new CountWithKeyedState)
.setParallelism(1)
.print
//运行任务
env.execute
}
}

复制代码

MapState
使用MapState生存中心结果对下面数据进行分组求和:
获取流处置处罚执行环境
加载数据源
数据分组
数据转换，界说MapState,生存中心结果
数据打印
触发执行
MapState:测试数据源：

List(
("java", 1),
("python", 3),
("java", 2),
("scala", 2),
("python", 1),
("java", 1),
("scala", 2)
)

复制代码

示例代码：

object MapState {
def main(args: Array[String]): Unit = {
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1)
/**
* 使用MapState保存中间结果对下面数据进行分组求和
* 1.获取流处理执行环境
* 2.加载数据源
* 3.数据分组
* 4.数据转换，定义MapState,保存中间结果
* 5.数据打印
* 6.触发执行
*/
val source: DataStream[(String, Int)] = env.fromCollection(List(
("java", 1),
("python", 3),
("java", 2),
("scala", 2),
("python", 1),
("java", 1),
("scala", 2)))
source.keyBy(0)
.map(new RichMapFunction[(String, Int), (String, Int)] {
var mste: MapState[String, Int] = _
override def open(parameters: Configuration): Unit = {
val msState = new MapStateDescriptor[String, Int]("ms",
TypeInformation.of(new TypeHint[(String)] {}),
TypeInformation.of(new TypeHint[(Int)] {}))
mste = getRuntimeContext.getMapState(msState)
}
override def map(value: (String, Int)): (String, Int) = {
val i: Int = mste.get(value._1)
mste.put(value._1, value._2 + i)
(value._1, value._2 + i)
}
}).print()
env.execute()
}
}

复制代码

2. State-Operator State

与Key无关的State，与Operator绑定的state，整个operator只对应一个state。
生存state的数据布局：
ListState
举例来说，Flink中的 Kafka Connector，就使用了operator state。它会在每个connector实例中，生存该实例中消耗topic的所有(partition, offset)映射。
步骤：
1.获取执行环境
2.设置检查点机制：路径，重启策略
3.自界说数据源
需要继续并行数据源和CheckpointedFunction
设置listState,通过上下文对象context获取
数据处置处罚，生存offset
制作快照
4.数据打印
5.触发执行
示例代码：

import java.util
import org.apache.flink.api.common.restartstrategy.RestartStrategies
import org.apache.flink.api.common.state.{ListState, ListStateDescriptor}
import org.apache.flink.api.common.time.Time
import org.apache.flink.api.common.typeinfo.{TypeHint, TypeInformation}
import org.apache.flink.runtime.state.{FunctionInitializationContext, FunctionSnapshotContext}
import org.apache.flink.runtime.state.filesystem.FsStateBackend
import org.apache.flink.streaming.api.CheckpointingMode
import org.apache.flink.streaming.api.checkpoint.CheckpointedFunction
import org.apache.flink.streaming.api.environment.CheckpointConfig
import org.apache.flink.streaming.api.functions.source.{RichParallelSourceFunction, SourceFunction}
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.scala._
object ListOperate {
def main(args: Array[String]): Unit = {
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1)
env.enableCheckpointing(5000)
env.setStateBackend(new FsStateBackend("hdfs://node01:8020/tmp/check/8"))
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
env.getCheckpointConfig.setCheckpointTimeout(60000)
env.getCheckpointConfig.setFailOnCheckpointingErrors(false)
env.getCheckpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
//重启策略
env.setRestartStrategy(RestartStrategies.failureRateRestart(3, Time.minutes(1), Time.seconds(5)))
//模拟kakfa偏移量
env.addSource(new MyRichParrelSourceFun)
.print()
env.execute()
}
}
class MyRichParrelSourceFun extends RichParallelSourceFunction[String]
with CheckpointedFunction {
var listState: ListState[Long] = _
var offset: Long = 0L
//任务运行
override def run(ctx: SourceFunction.SourceContext[String]): Unit = {
val iterState: util.Iterator[Long] = listState.get().iterator()
while (iterState.hasNext) {
offset = iterState.next()
}
while (true) {
offset += 1
ctx.collect("offset:"+offset)
Thread.sleep(1000)
if(offset > 10){
1/0
}
}
}
//取消任务
override def cancel(): Unit = ???
//制作快照
override def snapshotState(context: FunctionSnapshotContext): Unit = {
listState.clear()
listState.add(offset)
}
//初始化状态
override def initializeState(context: FunctionInitializationContext): Unit = {
listState = context.getOperatorStateStore.getListState(new ListStateDescriptor[Long](
"listState", TypeInformation.of(new TypeHint[Long] {})
))
}
}

复制代码

3. Broadcast State

Broadcast State 是 Flink 1.5 引入的新特性。在开辟过程中，假如遇到需要下发/广播配置、规则等低吞吐事件流到下游所有 task 时，就可以使用 Broadcast State 特性。下游的 task 吸收这些配置、规则并生存为 BroadcastState, 将这些配置应用到另一个数据流的计算中。

API介绍
通常，我们起首会创建一个Keyed或Non-Keyed的Data Stream，然后再创建一个Broadcasted Stream，最后通过Data Stream来连接（调用connect方法）到Broadcasted Stream上，如许实现将Broadcast State广播到Data Stream下游的每个Task中。
假如Data Stream是Keyed Stream，则连接到Broadcasted Stream后，添加处置处罚ProcessFunction时需要使用KeyedBroadcastProcessFunction来实现，下面是KeyedBroadcastProcessFunction的API，代码如下所示：

public abstract class KeyedBroadcastProcessFunction<KS, IN1, IN2, OUT> extends BaseBroadcastProcessFunction {
public abstract void processElement(final IN1 value, final ReadOnlyContext ctx, final Collector<OUT> out) throws Exception;
public abstract void processBroadcastElement(final IN2 value, final Context ctx, final Collector<OUT> out) throws Exception;
}

复制代码

上面泛型中的各个参数的含义，说明如下：
KS：表现Flink程序从最上游的Source Operator开始构建Stream，当调用keyBy时所依赖的Key的范例；
IN1：表现非Broadcast的Data Stream中的数据记载的范例；
IN2：表现Broadcast Stream中的数据记载的范例；
OUT：表现颠末KeyedBroadcastProcessFunction的processElement()和processBroadcastElement()方法处置处罚后输出结果数据记载的范例。
假如Data Stream是Non-Keyed Stream，则连接到Broadcasted Stream后，添加处置处罚ProcessFunction时需要使用BroadcastProcessFunction来实现，下面是BroadcastProcessFunction的API，代码如下所示：

public abstract class BroadcastProcessFunction<IN1, IN2, OUT> extends BaseBroadcastProcessFunction {
public abstract void processElement(final IN1 value, final ReadOnlyContext ctx, final Collector<OUT> out) throws Exception;
public abstract void processBroadcastElement(final IN2 value, final Context ctx, final Collector<OUT> out) throws Exception;
}

复制代码

上面泛型中的各个参数的含义，与前面KeyedBroadcastProcessFunction的泛型范例中的后3个含义雷同，只是没有调用keyBy操作对原始Stream进行分区操作，就不需要KS泛型参数。
留意事项：
1.Broadcast State 是Map范例，即K-V范例。
2.Broadcast State 只有在广播一侧的方法中processBroadcastElement可以修改;在非广播一侧方法中processElement只读。
3.Broadcast State在运行时生存在内存中。
2) 场景举例
1.动态更新计算规则: 如事件流需要根据最新的规则进行计算，则可将规则作为广播状态广播到下游Task中。
2.实时增长额外字段: 如事件流需要实时增长用户的基础信息，则可将用户的基础信息作为广播状态广播到下游Task中。
9 Flink的容错机制

在Flink中，有一套完备的容错机制来包管故障后的恢复，其中最重要的就是检查点。
9.1 检查点（Checkpoint）

9.1.1 检查点的生存

1）周期性的触发生存
“随时存档”确实恢复起来方便，但是需要我们不停地做存档操作。假如每处置处罚一条数据就进行检查点的生存，当大量数据同时到来时，就会泯灭很多资源来频仍做检查点，数据处置处罚的速率就会受到影响。所以在Flink中，检查点的生存是周期性触发的，隔断时间可以进行设置。
2）生存的时间点
我们应该在所有任务（算子）都恰恰处置处罚完一个雷同的输入数据的时间，将它们的状态生存下来。
如许做可以实现一个数据被所有任务（算子）完备地处置处罚完，状态得到了生存。
假如出现故障，我们恢复到之前生存的状态，故障时正在处置处罚的所有数据都需要重新处置处罚；我们只需要让源（source）任务向数据源重新提交偏移量、请求重放数据就可以了。当然这需要源任务可以把偏移量作为算子状态生存下来，而且外部数据源能够重置偏移量；kafka就是满足这些要求的一个最好的例子。
3）生存的具体流程
检查点的生存，最关键的就是要等所有任务将“同一个数据”处置处罚完毕。下面我们通过一个具体的例子，来详细描述一下检查点具体的生存过程。
回想一下我们最初实现的统计词频的程序——word count。这里为了方便，我们直接从数据源读入已经分开的一个个单词，例如这里输入的是：
“hello”，“world”，“hello”，“flink”，“hello”，“world”，“hello”，“flink”…
我们所需要的就是每个任务都处置处罚完“hello”之后生存自己的状态。
9.1.2 从检查点恢复状态

9.1.3 检查点算法

在Flink中，采用了基于Chandy-Lamport算法的分布式快照，可以在不停息整体流处置处罚的条件下，将状态备份生存到检查点。
9.1.3.1 检查点分边界（Barrier）

借鉴水位线的设计，在数据流中插入一个特殊的数据布局，专门用来表现触发检查点生存的时间点。收到生存检查点的指令后，Source任务可以在当前数据流中插入这个布局；之后的所有任务只要遇到它就开始对状态做持久化快照生存。由于数据流是保持序次依次处置处罚的，因此遇到这个标识就代表之前的数据都处置处罚完了，可以生存一个检查点；而在它之后的数据，引起的状态改变就不会体现在这个检查点中，而需要生存到下一个检查点。
这种特殊的数据形式，把一条流上的数据按照不同的检查点分隔开，所以就叫做检查点的“分边界”（Checkpoint Barrier）。

9.1.3.2 分布式快照算法（Barrier对齐的精准一次）

watermark指示的是“之前的数据全部到齐了”，而barrier指示的是“之前所有数据的状态更改生存入当前检查点”：它们都是一个“停止时间”的标志。所以在处置处罚多个分区的传递时，也要以是否还会有数据到来作为一个判断尺度。
具体实现上，
Flink使用了Chandy-Lamport算法的一种变体，被称为 “异步分边界快照” 算法。算法的焦点就是两个原则：
当上游任务向多个并行下游任务发送barrier时，需要广播出去；
而当多个上游任务向同一个下游任务传递分边界时，需要在下游任务执行“分边界对齐”操作，也就是需要比及所有并行分区的barrier都到齐，才可以开始状态的生存。
1）场景说明

2）检查点生存算法具体过程为：

（1）触发检查点：JobManager向Source发送Barrier；
（2）Barrier发送：向下游广播发送；
（3）Barrier对齐：下游需要收到上游所有并行度传递过来的Barrier才做自身状态的生存；
（4）状态生存：有状态的算子将状态生存至持久化。
（5）先处置处罚缓存数据，然后正常继续处置处罚
完成检查点生存之后，任务就可以继续正常处置处罚数据了。这时假如有等待分边界对齐时缓存的数据，需要先做处置处罚；然后再按照序次依次处置处罚新到的数据。当JobManager收到所有任务成功生存状态的信息，就可以确认当前检查点成功生存。之后遇到故障就可以从这里恢复了。
（补充）由于分边界对齐要求先到达的分区做缓存等待，一定程度上会影响处置处罚的速率；当出现背压时，下游任务会堆积大量的缓冲数据，检查点可能需要很久才可以生存完毕。
为了应对这种场景，Barrier对齐中提供了至少一次语义以及Flink 1.11之后提供了不对齐的检查点生存方式，可以将未处置处罚的缓冲数据也生存进检查点。如许，当我们遇到一个分区barrier时就不需等待对齐，而是可以直接启动状态的生存了。
9.1.3.3 分布式快照算法（Barrier对齐的至少一次）

9.1.3.4 分布式快照算法（非Barrier对齐的精准一次）

9.1.4 检查点配置

检查点的作用是为了故障恢复，我们不能由于生存检查点占据了大量时间、导致数据处置处罚性能显着低落。为了兼顾容错性和处置处罚性能，我们可以在代码中对检查点进行各种配置。
9.1.4.1 启用检查点

默认情况下，Flink程序是禁用检查点的。假如想要为Flink应用开启自动生存快照的功能，需要在代码中显式地调用执行环境的.enableCheckpointing()方法：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 每隔1秒启动一次检查点生存env.enableCheckpointing(1000);

复制代码

这里需要传入一个长整型的毫秒数，表现周期性生存检查点的隔断时间。假如不传参数直接启用检查点，默认的隔断周期为500毫秒，这种方式已经被弃用。
检查点的隔断时间是对处置处罚性能和故障恢复速率的一个权衡。假如我们希望对性能的影响更小，可以调大隔断时间；而假如希望故障重启后敏捷赶上实时的数据处置处罚，就需要将隔断时间设小一些。
9.1.4.2 检查点存储

检查点具体的持久化存储位置，取决于“检查点存储”的设置。默认情况下，检查点存储在JobManager的堆内存中。而对于大状态的持久化生存，Flink也提供了在其他存储位置进行生存的接口。
具体可以通过调用检查点配置的.setCheckpointStorage()来配置，需要传入一个CheckpointStorage的实现类。Flink重要提供了两种CheckpointStorage：作业管理器的堆内存和文件系统。

// 配置存储检查点到JobManager堆内存
env.getCheckpointConfig().setCheckpointStorage(new JobManagerCheckpointStorage());
// 配置存储检查点到文件系统
env.getCheckpointConfig().setCheckpointStorage(new FileSystemCheckpointStorage("hdfs://namenode:40010/flink/checkpoints"));

复制代码

对于实际生产应用，我们一般会将CheckpointStorage配置为高可用的分布式文件系统（HDFS，S3等）。
9.1.4.3 其它高级配置

检查点另有很多可以配置的选项，可以通过获取检查点配置（CheckpointConfig）来进行设置。

CheckpointConfig checkpointConfig = env.getCheckpointConfig();

复制代码

1）常用高级配置
检查点模式（CheckpointingMode）
设置检查点同等性的包管级别，有“精确一次”（exactly-once）和“至少一次”（at-least-once）两个选项。默认级别为exactly-once，而对于大多数低延迟的流处置处罚程序，at-least-once就够用了，而且处置处罚服从会更高。
超时时间（checkpointTimeout）
用于指定检查点生存的超时时间，超时没完成绩会被丢弃掉。传入一个长整型毫秒数作为参数，表现超时时间。
最小隔断时间（minPauseBetweenCheckpoints）
用于指定在上一个检查点完成之后，检查点协调器最快等多久可以出发生存下一个检查点的指令。这就意味着即使已经到达了周期触发的时间点，只要距离上一个检查点完成的隔断不够，就依然不能开启下一次检查点的生存。这就为正常处置处罚数据留下了富足的间隙。当指定这个参数时，实际并发为1。
最大并发检查点数目（maxConcurrentCheckpoints）
用于指定运行中的检查点最多可以有多少个。由于每个任务的处置处罚进度不同，完全可能出现背面的任务还没完成前一个检查点的生存、前面任务已经开始生存下一个检查点了。这个参数就是限定同时进行的最大数目。
开启外部持久化存储（enableExternalizedCheckpoints）
用于开启检查点的外部持久化，而且默认在作业失败的时间不会自动清算，假如想开释空间需要自己手工清算。内里传入的参数ExternalizedCheckpointCleanup指定了当作业取消的时间外部的检查点该如何清算。
DELETE_ON_CANCELLATION：在作业取消的时间会自动删除外部检查点，但是假如是作业失败退出，则会生存检查点。
RETAIN_ON_CANCELLATION：作业取消的时间也会生存外部检查点。
检查点一连失败次数（tolerableCheckpointFailureNumber）
用于指定检查点一连失败的次数，当到达这个次数，作业就失败退出。默以为0，这意味着不能容忍检查点失败，而且作业将在第一次陈诉检查点失败时失败。
2）开启非对齐检查点
非对齐检查点（enableUnalignedCheckpoints）
不再执行检查点的分边界对齐操作，启用之后可以大大减少产生背压时的检查点生存时间。这个设置要求检查点模式（CheckpointingMode）必须为exctly-once，而且最大并发的检查点个数为1。
对齐检查点超时时间（alignedCheckpointTimeout）
该参数只有在启用非对齐检查点的时间有效。参数默认是0，表现一开始就直接用非对齐检查点。假如设置大于0，一开始会使用对齐的检查点，当对齐时间高出该参数设定的时间，则会自动切换成非对齐检查点。
代码中具体设置如下：

public class CheckpointConfigDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration()); env.setParallelism(1); // 代码中用到hdfs，需要导入hadoop依赖、指定访问hdfs的用户名 System.setProperty("HADOOP_USER_NAME", "atguigu"); // TODO 检查点配置 // 1、启用检查点: 默认是barrier对齐的，周期为5s, 精准一次 env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE); CheckpointConfig checkpointConfig = env.getCheckpointConfig();
// 2、指定检查点的存储位置 checkpointConfig.setCheckpointStorage("hdfs://hadoop102:8020/chk"); // 3、checkpoint的超时时间: 默认10分钟 checkpointConfig.setCheckpointTimeout(60000); // 4、同时运行中的checkpoint的最大数目 checkpointConfig.setMaxConcurrentCheckpoints(1); // 5、最小等待隔断: 上一轮checkpoint结束到下一轮checkpoint开始之间的隔断，设置了>0,并发就会酿成1 checkpointConfig.setMinPauseBetweenCheckpoints(1000); // 6、取消作业时，checkpoint的数据是否生存在外部系统 // DELETE_ON_CANCELLATION:自动cancel时，删除存在外部系统的chk-xx目次（假如是程序突然挂掉，不会删） // RETAIN_ON_CANCELLATION:自动cancel时，外部系统的chk-xx目次会生存下来 checkpointConfig.setExternalizedCheckpointCleanup(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); // 7、允许 checkpoint 一连失败的次数，默认0--》表现checkpoint一失败，job就挂掉 checkpointConfig.setTolerableCheckpointFailureNumber(10); // TODO 开启非对齐检查点（barrier非对齐） // 开启的要求： Checkpoint模式必须是精准一次，最大并发必须设为1 checkpointConfig.enableUnalignedCheckpoints(); // 开启非对齐检查点才收效：默认0，表现一开始就直接用非对齐的检查点 // 假如大于0，一开始用对齐的检查点（barrier对齐），对齐的时间高出这个参数，自动切换成非对齐检查点（barrier非对齐） checkpointConfig.setAlignedCheckpointTimeout(Duration.ofSeconds(1)); env .socketTextStream("hadoop102", 7777) .flatMap( (String value, Collector<Tuple2<String, Integer>> out) -> { String[] words = value.split(" "); for (String word : words) { out.collect(Tuple2.of(word, 1)); } } ) .returns(Types.TUPLE(Types.STRING, Types.INT)) .keyBy(value -> value.f0) .sum(1) .print(); env.execute();
}}

复制代码

9.1.4.4 通用增量 checkpoint (changelog)

在 1.15 之前，只有RocksDB 支持增量快照。不同于产生一个包罗所有数据的全量备份，增量快照中只包罗自上一次快照完成之后被修改的记载，因此可以显著减少快照完成的耗时。
Rocksdb状态后端启用增量checkpoint：

EmbeddedRocksDBStateBackend backend = new EmbeddedRocksDBStateBackend(true);

复制代码

从 1.15 开始，不管hashmap还是rocksdb 状态后端都可以通过开启changelog实现通用的增量checkpoint。
1）执行过程
（1）带状态的算子任务将状态更改写入变更日志（记载状态）

（2）状态物化：状态表定期生存，独立于检查点

（3）状态物化完成后，状态变更日志就可以被截断到相应的点

2）留意事项
（1）目前标志为实验性功能，开启后可能会造成资源斲丧增大：
HDFS上生存的文件数变多
斲丧更多的IO带宽用于上传变更日志
更多的CPU用于序列化状态更改
TaskManager使用更多内存来缓存状态更改
（2）使用限定：
Checkpoint的最大并发必须为1
从 Flink 1.15 开始，只有文件系统的存储范例实现可用（memory测试阶段）
不支持 NO_CLAIM 模式
3）使用方式
（1）方式一：配置文件指定

state.backend.changelog.enabled: true
state.backend.changelog.storage: filesystem
# 存储 changelog 数据
dstl.dfs.base-path: hdfs://hadoop102:8020/changelog
execution.checkpointing.max-concurrent-checkpoints: 1
execution.savepoint-restore-mode: CLAIM

复制代码

（2）方式二：在代码中设置
需要引入依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-statebackend-changelog</artifactId>
<version>${flink.version}</version>
<scope>runtime</scope>
</dependency>

复制代码

开启changelog:

env.enableChangelogStateBackend(true);

复制代码

9.1.4.5 终极检查点
假如数据源是有界的，就可能出现部门Task已经处置处罚完所有数据，酿成finished状态，不继续工作。从 Flink 1.14 开始，这些finished状态的Task，也可以继续执行检查点。自 1.15 起默认启用此功能，而且可以通过功能标志禁用它：

Configuration config = new Configuration();
config.set(ExecutionCheckpointingOptions.ENABLE_CHECKPOINTS_AFTER_TASKS_FINISH, false);
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(config);

复制代码

9.1.5 生存点（Savepoint）

除了检查点外，Flink还提供了另一个非常独特的镜像生存功能——生存点（savepoint）。
从名称就可以看出，这也是一个存盘的备份，它的原理和算法与检查点完全雷同，只是多了一些额外的元数据。
9.1.5.1 生存点的用途

生存点与检查点最大的区别，就是触发的时机。检查点是由Flink自动管理的，定期创建，发生故障之后自动读取进行恢复，这是一个“自动存盘”的功能；而生存点不会自动创建，必须由用户明白地手动触发生存操作，所以就是“手动存盘”。
生存点可以当作一个强大的运维工具来使用。我们可以在需要的时间创建一个生存点，然后停止应用，做一些处置处罚调解之后再从生存点重启。它适用的具体场景有：
版本管理和归档存储
更新Flink版本
更新应用程序
调解并行度
停息应用程序
需要留意的是，生存点能够在程序更改的时间依然兼容，条件是状态的拓扑布局和数据范例稳定。我们知道生存点中状态都是以算子ID-状态名称如许的key-value组织起来的，算子ID可以在代码中直接调用SingleOutputStreamOperator的.uid()方法来进行指定：

DataStream<String> stream = env
.addSource(new StatefulSource()).uid("source-id")
.map(new StatefulMapper()).uid("mapper-id")
.print();

复制代码

对于没有设置ID的算子，Flink默认会自动进行设置，所以在重新启动应用后可能会导致ID不同而无法兼容从前的状态。所以为了方便后续的维护，猛烈建议在程序中为每一个算子手动指定ID。
9.1.5.2 使用生存点

生存点的使用非常简朴，我们可以使用下令行工具来创建生存点，也可以从生存点恢复作业。
（1）创建生存点
要在下令行中为运行的作业创建一个生存点镜像，只需要执行：

bin/flink savepoint :jobId [:targetDirectory]

复制代码

这里jobId需要填充要做镜像生存的作业ID，目标路径targetDirectory可选，表现生存点存储的路径。
对于生存点的默认路径，可以通过配置文件flink-conf.yaml中的state.savepoints.dir项来设定：

state.savepoints.dir: hdfs:///flink/savepoints

复制代码

当然对于单独的作业，我们也可以在程序代码中通过执行环境来设置：

env.setDefaultSavepointDir("hdfs:///flink/savepoints");

复制代码

由于创建生存点一般都是希望更改环境之后重启，所以创建之后往往紧接着就是停掉作业的操作。除了对运行的作业创建生存点，我们也可以在停掉一个作业时直接创建生存点：

bin/flink stop --savepointPath [:targetDirectory] :jobId

复制代码

（2）从生存点重启应用
我们已经知道，提交启动一个Flink作业，使用的下令是flink run；现在要从生存点重启一个应用，实在本质是一样的：

bin/flink run -s :savepointPath [:runArgs]

复制代码

这里只要增长一个-s参数，指定生存点的路径就可以了，其它启动时的参数还是完全一样的，假如是基于yarn的运行模式还需要加上 -yid application-id。我们在第三章使用web UI进行作业提交时，可以填入的参数除了入口类、并行度和运行参数，另有一个“Savepoint Path”，这就是从生存点启动应用的配置。
9.1.5.3 使用生存点切换状态后端

使用savepoint恢复状态的时间，也可以更换状态后端。但是有一点需要留意的是，不要在代码中指定状态后端了，通过配置文件来配置大概-D 参数配置。
打包时，服务器上有的就provided，可能遇到依赖问题，报错：javax.annotation.Nullable找不到，可以导入如下依赖：

<dependency>
<groupId>com.google.code.findbugs</groupId>
<artifactId>jsr305</artifactId>
<version>1.3.9</version>
</dependency>

复制代码

（1）提交flink作业

bin/flink run-application -d -t yarn-application -Dstate.backend=hashmap -c com.atguigu.checkpoint.SavepointDemo FlinkTutorial-1.0-SNAPSHOT.jar

复制代码

（2）停止flink作业时，触发生存点
方式一：stop优雅停止并触发生存点，要求source实现StoppableFunction接口

bin/flink stop -p savepoint路径 job-id -yid application-id

复制代码

方式二：cancel立即停止并触发生存点

bin/flink cancel -s savepoint路径 job-id -yid application-id

复制代码

案例中source是socket，不能用stop

bin/flink cancel -s hdfs://hadoop102:8020/sp cffca338509ea04f38f03b4b77c8075c -yid application_1681871196375_0001

复制代码

（3）从savepoint恢复作业，同时修改状态后端

bin/flink run-application -d -t yarn-application -s hdfs://hadoop102:8020/sp/savepoint-267cc0-47a214b019d5 -Dstate.backend=rocksdb -c com.atguigu.checkpoint.SavepointDemo FlinkTutorial-1.0-SNAPSHOT.jar

复制代码

（4）从生存下来的checkpoint恢复作业

bin/flink run-application -d -t yarn-application -Dstate.backend=rocksdb -s hdfs://hadoop102:8020/chk/532f87ef4146b2a2968a1c137d33d4a6/chk-175 -c com.atguigu.checkpoint.SavepointDemo ./FlinkTutorial-1.0-SNAPSHOT.jar

复制代码

假如停止作业时，忘了触发生存点也不消担心，现在版本的flink支持从生存在外部系统的checkpoint恢复作业，但是恢复时不支持切换状态后端。
9.2 状态同等性

9.2.1 同等性的概念和级别

同等性实在就是结果的正确性，一般从数据丢失、数据重复来评估。
流式计算自己就是一个一个来的，所以正常处置处罚的过程中结果肯定是正确的；但在发生故障、需要恢复状态进行回滚时就需要更多的保障机制了。我们通过检查点的生存来包管状态恢复后结果的正确，所以重要讨论的就是“状态的同等性”。
一般说来，状态同等性有三种级别：
最多一次（At-Most-Once）
至少一次（At-Least-Once）
精确一次（Exactly-Once）
9.2.2 端到端的状态同等性

我们已经知道检查点可以包管Flink内部状态的同等性，而且可以做到精确一次。那是不是说，只要开启了检查点，发生故障进行恢复，结果就不会有任何问题呢？
没那么简朴。在实际应用中，一般要包管从用户的角度看来，终极消耗的数据是正确的。而用户大概外部应用不会直接从Flink内部的状态读取数据，往往需要我们将处置处罚结果写入外部存储中。这就要求我们不仅要考虑Flink内部数据的处置处罚转换，还涉及到从外部数据源读取，以及写入外部持久化系统，整个应用处置处罚流程从头至尾都应该是正确的。
所以完备的流处置处罚应用，应该包括了数据源、流处置处罚器和外部存储系统三个部门。这个完备应用的同等性，就叫做“端到端（end-to-end）的状态同等性”，它取决于三个组件中最弱的那一环。一般来说，能否到达at-least-once同等性级别，重要看数据源能够重放数据；而能否到达exactly-once级别，流处置处罚器内部、数据源、外部存储都要有相应的包管机制。
9.3 端到端精确一次（End-To-End Exactly-Once）

实际应用中，最难做到、也最希望做到的同等性语义，无疑就是端到端（end-to-end）的“精确一次”。我们知道，对于Flink内部来说，检查点机制可以包管故障恢复后数据不丢（在能够重放的条件下），而且只处置处罚一次，所以已经可以做到exactly-once的同等性语义了。
所以端到端同等性的关键点，就在于输入的数据源端和输出的外部存储端。

9.3.1 输入端包管

输入端重要指的就是Flink读取的外部数据源。对于一些数据源来说，并不提供数据的缓冲或是持久化生存，数据被消耗之后就彻底不存在了，例如socket文本流。对于如许的数据源，故障后我们即使通过检查点恢复之前的状态，可生存检查点之后到发生故障期间的数据已经不能重发了，这就会导致数据丢失。所以就只能包管at-most-once的同等性语义，相当于没有包管。
想要在故障恢复后不丢数据，外部数据源就必须拥有重放数据的本领。常见的做法就是对数据进行持久化生存，而且可以重设数据的读取位置。一个最经典的应用就是Kafka。在Flink的Source任务中将数据读取的偏移量生存为状态，如许就可以在故障恢复时从检查点中读取出来，对数据源重置偏移量，重新获取数据。
数据源可重放数据，大概说可重置读取数据偏移量，加上Flink的Source算子将偏移量作为状态生存进检查点，就可以包管数据不丢。这是到达at-least-once同等性语义的基本要求，当然也是实现端到端exactly-once的基本要求。
9.3.2 输出端包管

有了Flink的检查点机制，以及可重放数据的外部数据源，我们已经能做到at-least-once了。但是想要实现exactly-once却有更大的困难：数据有可能重复写入外部系统。
由于检查点生存之后，继续到来的数据也会一一处置处罚，任务的状态也会更新，终极通过Sink任务将计算结果输出到外部系统；只是状态改变还没有存到下一个检查点中。这时假如出现故障，这些数据都会重新来一遍，就计算了两次。我们知道对Flink内部状态来说，重复计算的动作是没有影响的，由于状态已经回滚，终极改变只会发生一次；但对于外部系统来说，已经写入的结果就是泼出去的水，已经无法收回了，再次执行写入就会把同一个数据写入两次。
所以这时，我们只包管了端到端的at-least-once语义。
为了实现端到端exactly-once，我们还需要对外部存储系统、以及Sink连接器有额外的要求。能够包管exactly-once同等性的写入方式有两种：
幂等写入
事务写入
我们需要外部存储系统对这两种写入方式的支持，而Flink也为提供了一些Sink连接器接口。接下来我们进行展开讲解。
1）幂等（Idempotent）写入
所谓“幂等”操作，就是说一个操作可以重复执行很多次，但只导致一次结果更改。也就是说，背面再重复执行就不会对结果起作用了。
这相当于说，我们并没有真正办理数据重复计算、写入的问题；而是说，重复写入也没关系，结果不会改变。所以这种方式重要的限定在于外部存储系统必须支持如许的幂等写入：比如Redis中键值存储，大概关系型数据库（如MySQL）中满足查询条件的更新操作。
需要留意，对于幂等写入，遇到故障进行恢复时，有可能会出现短暂的不同等。由于生存点完成之后到发生故障之间的数据，实在已经写入了一遍，回滚的时间并不能消除它们。假如有一个外部应用读取写入的数据，可能会看到希奇的征象：短时间内，结果会突然“跳回”到之前的某个值，然后“重播”一段之前的数据。不外当数据的重放逐渐高出发生故障的点的时间，终极的结果还是同等的。
2）事务（Transactional）写入
假如说幂等写入对应用场景限定太多，那么事务写入可以说是更一般化的包管同等性的方式。
输出端最大的问题，就是写入到外部系统的数据难以撤回。而利用事务就可以实现对已写入数据的撤回。
事务是应用程序中一系列细密的操作，所有操作必须成功完成，否则在每个操作中所作的所有更改都会被撤消。事务有四个基本特性：原子性、同等性、隔离性和持久性，这就是著名的ACID。
在Flink流处置处罚的结果写入外部系统时，假如能够构建一个事务，让写入操作可以随着检查点来提交和回滚，那么自然就可以办理重复写入的问题了。所以事务写入的基本思想就是：用一个事务来进行数据向外部系统的写入，这个事务是与检查点绑定在一起的。当Sink任务遇到barrier时，开始生存状态的同时就开启一个事务，接下来所有数据的写入都在这个事务中；待到当前检查点生存完毕时，将事务提交，所有写入的数据就真正可用了。假如中心过程出现故障，状态会回退到上一个检查点，而当前事务没有正常关闭（由于当前检查点没有生存完），所以也会回滚，写入到外部的数据就被撤销了。
具体来说，又有两种实现方式：预写日志（WAL）和两阶段提交（2PC）
（1）预写日志（write-ahead-log，WAL）
我们发现，事务提交是需要外部存储系统支持事务的，否则没有办法真正实现写入的回撤。那对于一般不支持事务的存储系统，能够实现事务写入呢？
预写日志（WAL）就是一种非常简朴的方式。具体步骤是：
①先把结果数据作为日志（log）状态生存起来
②进行检查点生存时，也会将这些结果数据一并做持久化存储
③在收到检查点完成的关照时，将所有结果一次性写入外部系统。
④在成功写入所有数据后，在内部再次确认相应的检查点，将确认信息也进行持久化生存。这才代表着检查点的真正完成。
我们会发现，这种方式雷同于检查点完成时做一个批处置处罚，一次性的写入会带来一些性能上的问题；而优点就是比较简朴，由于数据提前在状态后端中做了缓存，所以无论什么外部存储系统，理论上都能用这种方式一批搞定。在Flink中DataStream API提供了一个模板类GenericWriteAheadSink，用来实现这种事务型的写入方式。
需要留意的是，预写日志这种一批写入的方式，有可能会写入失败；所以在执行写入动作之后，必须等待发送成功的返回确认消息。在成功写入所有数据后，在内部再次确认相应的检查点，这才代表着检查点的真正完成。这里需要将确认信息也进行持久化生存，在故障恢复时，只有存在对应的确认信息，才能包管这批数据已经写入，可以恢复到对应的检查点位置。
但这种“再次确认”的方式，也会有一些缺陷。假如我们的检查点已经成功生存、数据也成功地一批写入到了外部系统，但是终极生存确认信息时出现了故障，Flink终极还是会以为没有成功写入。于是发生故障时，不会使用这个检查点，而是需要回退到上一个；如许就会导致这批数据的重复写入。
（2）两阶段提交（two-phase-commit，2PC）
前面提到的各种实现exactly-once的方式，多少都有点缺陷；而更好的方法就是传说中的两阶段提交（2PC）。
顾名思义，它的想法是分成两个阶段：先做“预提交”，等检查点完成之后再正式提交。这种提交方式是真正基于事务的，它需要外部系统提供事务支持。
具体的实现步骤为：
①当第一条数据到来时，大概收到检查点的分边界时，Sink任务都会启动一个事务。
②接下来吸收到的所有数据，都通过这个事务写入外部系统；这时由于事务没有提交，所以数据尽管写入了外部系统，但是不可用，是“预提交”的状态。
③当Sink任务收到JobManager发来检查点完成的关照时，正式提交事务，写入的结果就真正可用了。
当中心发生故障时，当前未提交的事务就会回滚，于是所有写入外部系统的数据也就实现了撤回。这种两阶段提交（2PC）的方式充实利用了Flink现有的检查点机制：分边界的到来，就标志着开始一个新事务；而收到来自JobManager的checkpoint成功的消息，就是提交事务的指令。每个结果数据的写入，依然是流式的，不再有预写日志时批处置处罚的性能问题；终极提交时，也只需要额外发送一个确认信息。所以2PC协议不仅真正意义上实现了exactly-once，而且通过搭载Flink的检查点机制来实现事务，只给系统增长了很少的开销。
Flink提供了TwoPhaseCommitSinkFunction接口，方便我们自界说实现两阶段提交的SinkFunction的实现，提供了真正端到端的exactly-once包管。新的Sink架构，使用的是TwoPhaseCommittingSink接口。
不外两阶段提交固然精巧，却对外部系统有很高的要求。这里将2PC对外部系统的要求列举如下：
外部系统必须提供事务支持，大概Sink任务必须能够模拟外部系统上的事务。
在检查点的隔断期间里，必须能够开启一个事务并担当数据写入。
在收到检查点完成的关照之前，事务必须是“等待提交”的状态。在故障恢复的情况下，这可能需要一些时间。假如这个时间外部系统关闭事务（例如超时了），那么未提交的数据就会丢失。
Sink任务必须能够在进程失败后恢复事务。
提交事务必须是幂等操作。也就是说，事务的重复提交应该是无效的。
可见，2PC在实际应用同样会受到比较大的限定。具体在项目中的选型，终极还应该是同等性级别和处置处罚性能的权衡考量。
9.3.3 Flink和Kafka连接时的精确一次包管

在流处置处罚的应用中，最佳的数据源当然就是可重置偏移量的消息队列了；它不仅可以提供数据重放的功能，而且天生就是以流的方式存储和处置处罚数据的。所以作为大数据工具中消息队列的代表，Kafka可以说与Flink是天作之合，实际项目中也常常会看到以Kafka作为数据源和写入的外部系统的应用。在本小节中，我们就来具体讨论一下Flink和Kafka连接时，怎样包管端到端的exactly-once状态同等性。

1）整体介绍
既然是端到端的exactly-once，我们依然可以从三个组件的角度来进行分析：
（1）Flink内部
Flink内部可以通过检查点机制包管状态和处置处罚结果的exactly-once语义。
（2）输入端
输入数据源端的Kafka可以对数据进行持久化生存，并可以重置偏移量（offset）。所以我们可以在Source任务（FlinkKafkaConsumer）中将当前读取的偏移量生存为算子状态，写入到检查点中；当发生故障时，从检查点中读取恢复状态，并由连接器FlinkKafkaConsumer向Kafka重新提交偏移量，就可以重新消耗数据、包管结果的同等性了。
（3）输出端
输出端包管exactly-once的最佳实现，当然就是两阶段提交（2PC）。作为与Flink天生一对的Kafka，自然需要用最强有力的同等性包管来证实自己。
也就是说，我们写入Kafka的过程实际上是一个两段式的提交：处置处罚完毕得到结果，写入Kafka时是基于事务的“预提交”；比及检查点生存完毕，才会提交事务进行“正式提交”。假如中心出现故障，事务进行回滚，预提交就会被放弃；恢复状态之后，也只能恢复所有已经确认提交的操作。
2）需要的配置
在具体应用中，实现真正的端到端exactly-once，还需要有一些额外的配置：
（1）必须启用检查点
（2）指定KafkaSink的发送级别为DeliveryGuarantee.EXACTLY_ONCE
（3）配置Kafka读取数据的消耗者的隔离级别
这里所说的Kafka，是写入的外部系统。预提交阶段数据已经写入，只是被标志为“未提交”（uncommitted），而Kafka中默认的隔离级别isolation.level是read_uncommitted，也就是可以读取未提交的数据。如许一来，外部应用就可以直接消耗未提交的数据，对于事务性的包管就失效了。所以应该将隔离级别配置
为read_committed，表现消耗者遇到未提交的消息时，会停止从分区中消耗数据，直到消息被标志为已提交才会再次恢复消耗。当然，如许做的话，外部应用消耗数据就会有显著的延迟。
（4）事务超时配置
Flink的Kafka连接器中配置的事务超时时间transaction.timeout.ms默认是1小时，而Kafka集群配置的事务最大超时时间transaction.max.timeout.ms默认是15分钟。所以在检查点生存时间很长时，有可能出现Kafka已经以为事务超时了，丢弃了预提交的数据；而Sink任务以为还可以继续等待。假如接下来检查点生存成功，发生故障后回滚到这个检查点的状态，这部门数据就被真正丢掉了。所以这两个超时时间，前者应该小于即是后者。

public class KafkaEOSDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 代码中用到hdfs，需要导入hadoop依赖、指定访问hdfs的用户名 System.setProperty("HADOOP_USER_NAME", "atguigu"); // TODO 1、启用检查点,设置为精准一次 env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE); CheckpointConfig checkpointConfig = env.getCheckpointConfig();
checkpointConfig.setCheckpointStorage("hdfs://hadoop102:8020/chk"); checkpointConfig.setExternalizedCheckpointCleanup(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); // TODO 2.读取kafka KafkaSource<String> kafkaSource = KafkaSource.<String>builder() .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092") .setGroupId("atguigu") .setTopics("topic_1") .setValueOnlyDeserializer(new SimpleStringSchema()) .setStartingOffsets(OffsetsInitializer.latest()) .build(); DataStreamSource<String> kafkasource = env .fromSource(kafkaSource, WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3)), "kafkasource"); /** * TODO 3.写出到Kafka * 精准一次写入Kafka，需要满足以下条件，缺一不可 * 1、开启checkpoint * 2、sink设置包管级别为精准一次 * 3、sink设置事务前缀 * 4、sink设置事务超时时间： checkpoint隔断 < 事务超时时间 < max的15分钟 */ KafkaSink<String> kafkaSink = KafkaSink.<String>builder() // 指定 kafka 的地址和端口 .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092") // 指定序列化器：指定Topic名称、具体的序列化 .setRecordSerializer( KafkaRecordSerializationSchema.<String>builder() .setTopic("ws") .setValueSerializationSchema(new SimpleStringSchema()) .build() ) // TODO 3.1 精准一次,开启 2pc .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE) // TODO 3.2 精准一次，必须设置事务的前缀 .setTransactionalIdPrefix("atguigu-") // TODO 3.3 精准一次，必须设置事务超时时间: 大于checkpoint隔断，小于 max 15分钟 .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 10*60*1000+"") .build(); kafkasource.sinkTo(kafkaSink); env.execute();
}}

复制代码

后续读取“ws”这个topic的消耗者，要设置事务的隔离级别为“读已提交”，如下：

public class KafkaEOSDemo2 { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 消耗在前面使用两阶段提交写入的Topic KafkaSource<String> kafkaSource = KafkaSource.<String>builder() .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092") .setGroupId("atguigu") .setTopics("ws") .setValueOnlyDeserializer(new SimpleStringSchema()) .setStartingOffsets(OffsetsInitializer.latest()) // TODO 作为下游的消耗者，要设置事务的隔离级别 = 读已提交 .setProperty(ConsumerConfig.ISOLATION_LEVEL_CONFIG, "read_committed") .build(); env .fromSource(kafkaSource, WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3)), "kafkasource") .print(); env.execute();
}}

复制代码

补充

1. Checkpoint介绍

checkpoint机制是Flink可靠性的基石，可以包管Flink集群在某个算子由于某些原因(如非常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的同等性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。
每个需要checkpoint的应用在启动时，Flink的JobManager为其创建一个 CheckpointCoordinator(检查点协调器)，CheckpointCoordinator全权负责本应用的快照制作。

1.CheckpointCoordinator(检查点协调器) 周期性的向该流应用的所有source算子发送 barrier(屏蔽)。
2.当某个source算子收到一个barrier时，便停息数据处置处罚过程，然后将自己的当前状态制作成快照，并生存到指定的持久化存储中，最后向CheckpointCoordinator陈诉自己快照制作情况，同时向自身所有下游算子广播该barrier，恢复数据处置处罚
3.下游算子收到barrier之后，会停息自己的数据处置处罚过程，然后将自身的相干状态制作成快照，并生存到指定的持久化存储中，最后向CheckpointCoordinator陈诉自身快照情况，同时向自身所有下游算子广播该barrier，恢复数据处置处罚。
4.每个算子按照步骤3不停制作快照并向下游广播，直到最后barrier传递到sink算子，快照制作完成。
5.当CheckpointCoordinator收到所有算子的陈诉之后，以为该周期的快照制作成功; 否则，假如在规定的时间内没有收到所有算子的陈诉，则以为本周期快照制作失败。
假如一个算子有两个输入源，则暂时阻塞先收到barrier的输入源，比及第二个输入源相同编号的barrier到来时，再制作自身快照并向下游广播该barrier。具体如下图所示：

1.假设算子C有A和B两个输入源
2.在第i个快照周期中，由于某些原因(如处置处罚时延、网络时延等)输入源A发出的 barrier 先到来，这时算子C暂时将输入源A的输入通道阻塞，仅收输入源B的数据。
3.当输入源B发出的barrier到来时，算子C制作自身快照并向 CheckpointCoordinator 陈诉自身的快照制作情况，然后将两个barrier合并为一个，向下游所有的算子广播。
4.当由于某些原因出现故障时，CheckpointCoordinator关照流图上所有算子同一恢复到某个周期的checkpoint状态，然后恢复数据流处置处罚。分布式checkpoint机制包管了数据仅被处置处罚一次(Exactly Once)。
2. 持久化存储

1) MemStateBackend
该持久化存储重要将快照数据生存到JobManager的内存中，仅适合作为测试以及快照的数据量非常小时使用，并不保举用作大规模商业部署。
MemoryStateBackend 的范围性：
默认情况下，每个状态的大小限定为 5 MB。可以在MemoryStateBackend的构造函数中增长此值。
无论配置的最大状态大小如何，状态都不能大于akka帧的大小（请参阅配置）。
聚合状态必须适合 JobManager 内存。
建议MemoryStateBackend 用于：
本地开辟和调试。
状态很少的作业，例如仅包罗一次记载功能的作业（Map，FlatMap，Filter，…），kafka的消耗者需要很少的状态。
2) FsStateBackend
该持久化存储重要将快照数据生存到文件系统中，目前支持的文件系统重要是 HDFS和本地文件。假如使用HDFS，则初始化FsStateBackend时，需要传入以 “hdfs://”开头的路径(即: new FsStateBackend(“hdfs:///hacluster/checkpoint”))，假如使用本地文件，则需要传入以“file://”开头的路径(即:new FsStateBackend(“file:///Data”))。在分布式情况下，不保举使用本地文件。假如某个算子在节点A上失败，在节点B上恢复，使用本地文件时，在B上无法读取节点 A上的数据，导致状态恢复失败。
建议FsStateBackend：
具有大状态，长窗口，大键 / 值状态的作业。
所有高可用性设置。
3) RocksDBStateBackend
RocksDBStatBackend介于本地文件和HDFS之间，平时使用RocksDB的功能，将数据持久化到本地文件中，当制作快照时，将本地数据制作成快照，并持久化到 FsStateBackend中(FsStateBackend不必用户特别指明，只需在初始化时传入HDFS 或本地路径即可，如new RocksDBStateBackend(“hdfs:///hacluster/checkpoint”)或new RocksDBStateBackend(“file:///Data”))。
假如用户使用自界说窗口(window)，不保举用户使用RocksDBStateBackend。在自界说窗口中，状态以ListState的形式生存在StatBackend中，假如一个key值中有多个value值，则RocksDB读取该种ListState非常迟钝，影响性能。用户可以根据应用的具体情况选择FsStateBackend+HDFS或RocksStateBackend+HDFS。
4) 语法

val env = StreamExecutionEnvironment.getExecutionEnvironment()
// start a checkpoint every 1000 ms
env.enableCheckpointing(1000)
// advanced options:
// 设置checkpoint的执行模式，最多执行一次或者至少执行一次
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
// 设置checkpoint的超时时间
env.getCheckpointConfig.setCheckpointTimeout(60000)
// 如果在只做快照过程中出现错误，是否让整体任务失败：true是 false不是
env.getCheckpointConfig.setFailTasksOnCheckpointingErrors(false)
//设置同一时间有多少个checkpoint可以同时执行
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)

复制代码

5) 修改State Backend的两种方式
第一种：单任务调解
修改当前任务代码
env.setStateBackend(new FsStateBackend(“hdfs://namenode:9000/flink/checkpoints”));
大概new MemoryStateBackend()
大概new RocksDBStateBackend(filebackend, true);【需要添加第三方依赖】
第二种：全局调解
修改flink-conf.yaml
state.backend: filesystem
state.checkpoints.dir: hdfs://namenode:9000/flink/checkpoints
留意：state.backend的值可以是下面几种：jobmanager(MemoryStateBackend), filesystem(FsStateBackend), rocksdb(RocksDBStateBackend)
6) Checkpoint的高级选项
默认checkpoint功能是disabled的，想要使用的时间需要先启用checkpoint开启之后，默认的checkPointMode是Exactly-once

//配置一秒钟开启一个checkpoint
env.enableCheckpointing(1000)
//指定checkpoint的执行模式
//两种可选：
//CheckpointingMode.EXACTLY_ONCE：默认值
//CheckpointingMode.AT_LEAST_ONCE
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
一般情况下选择CheckpointingMode.EXACTLY_ONCE，除非场景要求极低的延迟（几毫秒）
注意：如果需要保证EXACTLY_ONCE，source和sink要求必须同时保证EXACTLY_ONCE
//如果程序被cancle，保留以前做的checkpoint
env.getCheckpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
默认情况下，检查点不被保留，仅用于在故障中恢复作业，可以启用外部持久化检查点，同时指定保留策略:
ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION:在作业取消时保留检查点，注意，在这种情况下，您必须在取消后手动清理检查点状态
ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION：当作业在被cancel时，删除检查点，检查点仅在作业失败时可用
//设置checkpoint超时时间
env.getCheckpointConfig.setCheckpointTimeout(60000)
//Checkpointing的超时时间，超时时间内没有完成则被终止
//Checkpointing最小时间间隔，用于指定上一个checkpoint完成之后
//最小等多久可以触发另一个checkpoint，当指定这个参数时，maxConcurrentCheckpoints的值为1
env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)
//设置同一个时间是否可以有多个checkpoint执行
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
指定运行中的checkpoint最多可以有多少个
env.getCheckpointConfig.setFailOnCheckpointingErrors(true)
用于指定在checkpoint发生异常的时候，是否应该fail该task，默认是true，如果设置为false，则task会拒绝checkpoint然后继续运行

复制代码

2. Flink的重启策略

Flink支持不同的重启策略，这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启，这个默认的重启策略通常在未指定重启策略的情况下使用，而假如Job提交的时间指定了重启策略，这个重启策略就会覆盖掉集群的默认重启策略。
1) 概览
默认的重启策略是通过Flink的 flink-conf.yaml 来指定的，这个配置参数 restart-strategy 界说了哪种策略会被采用。假如checkpoint未启动，就会采用 no restart 策略，假如启动了checkpoint机制，但是未指定重启策略的话，就会采用 fixed-delay 策略，重试 Integer.MAX_VALUE 次。请参考下面的可用重启策略来了解哪些值是支持的。
每个重启策略都有自己的参数来控制它的举动，这些值也可以在配置文件中设置，每个重启策略的描述都包罗着各自的配置值信息。

除了界说一个默认的重启策略之外，你还可以为每一个Job指定它自己的重启策略，这个重启策略可以在 ExecutionEnvironment 中调用 setRestartStrategy() 方法来程序化地调用，留意这种方式同样适用于 StreamExecutionEnvironment。
下面的例子展示了如何为Job设置一个固定延迟重启策略，一旦有失败，系统就会尝试每10秒重启一次，重启3次。

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
3, // 重启次数
Time.of(10, TimeUnit.SECONDS) // 延迟时间间隔
))

复制代码

2) 固定延迟重启策略(Fixed Delay Restart Strategy)
固定延迟重启策略会尝试一个给定的次数来重启Job，假如高出了最大的重启次数，Job终极将失败。在一连的两次重启尝试之间，重启策略会等待一个固定的时间。
重启策略可以配置flink-conf.yaml的下面配置参数来启用，作为默认的重启策略:

restart-strategy: fixed-delay

复制代码

例子:

restart-strategy.fixed-delay.attempts: 3
restart-strategy.fixed-delay.delay: 10 s

复制代码

固定延迟重启也可以在程序中设置:

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
3, // 重启次数
Time.of(10, TimeUnit.SECONDS) // 重启时间间隔
))

复制代码

3) 失败率重启策略
失败率重启策略在Job失败后会重启，但是高出失败率后，Job会终极被认定失败。在两个一连的重启尝试之间，重启策略会等待一个固定的时间。
失败率重启策略可以在flink-conf.yaml中设置下面的配置参数来启用:

restart-strategy:failure-rate

复制代码

配置参数描述默认值
restart-strategy.failure-rate.max-failures-per-interval 在一个Job认定为失败之前，最大的重启次数 1
restart-strategy.failure-rate.failure-rate-interval 计算失败率的时间隔断 1分钟
restart-strategy.failure-rate.delay 两次一连重启尝试之间的时间隔断 akka.ask.timeout
例子:

restart-strategy.failure-rate.max-failures-per-interval: 3
restart-strategy.failure-rate.failure-rate-interval: 5 min
restart-strategy.failure-rate.delay: 10 s

复制代码

失败率重启策略也可以在程序中设置:

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.failureRateRestart(
3, // 每个测量时间间隔最大失败次数
Time.of(5, TimeUnit.MINUTES), //失败率测量的时间间隔
Time.of(10, TimeUnit.SECONDS) // 两次连续重启尝试的时间间隔
))

复制代码

4) 无重启策略
Job直接失败，不会尝试进行重启

restart-strategy: none

复制代码

无重启策略也可以在程序中设置

val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.noRestart())

复制代码

5) 案例
需求：输入五次zhangsan，程序挂掉。
代码：

import org.apache.flink.api.common.restartstrategy.RestartStrategies
import org.apache.flink.runtime.state.filesystem.FsStateBackend
import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup
import org.apache.flink.streaming.api.scala._
object FixDelayRestartStrategiesDemo {
def main(args: Array[String]): Unit = {
val env = StreamExecutionEnvironment.getExecutionEnvironment
//如果想要开启重启策略，就必须开启CheckPoint
env.enableCheckpointing(5000L)
//指定状态存储后端,默认就是内存
//现在指定的是FsStateBackend，支持本地系统、
//new FsStateBackend要指定存储系统的协议： scheme (hdfs://, file://, etc)
env.setStateBackend(new FsStateBackend(args(0)))
//如果程序被cancle，保留以前做的checkpoint
env.getCheckpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
//指定以后存储多个checkpoint目录
env.getCheckpointConfig.setMaxConcurrentCheckpoints(2)
//指定重启策略,默认的重启策略是不停的重启
//程序出现异常是会重启，重启五次，每次延迟5秒，如果超过了5次，程序退出
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(5, 5000))
val lines: DataStream[String] = env.socketTextStream(args(1), 8888)
val result = lines.flatMap(_.split(" ").map(word => {
if(word.equals("zhangsan")) {
throw new RuntimeException("zhangsan，程序重启！");
}
(word, 1)
})).keyBy(0).sum(1)
result.print()
env.execute()
}
}

复制代码

3 checkpoint 案例

需求：
假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量，然后对统计的结果值进行checkpoint处置处罚
数据规划：
1.使用自界说算子每秒钟产生大约10000条数据。
2.产生的数据为一个四元组(Long，String，String，Integer)—------(id,name,info,count)。
3.数据经统计后，统计结果打印到终端输出。
4.打印输出的结果为Long范例的数据。
开辟思路：
1.source算子每隔1秒钟发送10000条数据，并注入到Window算子中。
2.window算子每隔1秒钟统计一次最近4秒钟内数据数目。
3.每隔1秒钟将统计结果打印到终端。
4.每隔6秒钟触发一次checkpoint，然后将checkpoint的结果生存到HDFS中。
开辟步骤：
1.获取流处置处罚执行环境
2.设置检查点机制
3.自界说数据源
4.数据分组
5.分别时间窗口
6.数据聚合
7.数据打印
8.触发执行

示例代码：

//发送数据形式
case class SEvent(id: Long, name: String, info: String, count: Int)
class SEventSourceWithChk extends RichSourceFunction[SEvent]{
private var count = 0L
private var isRunning = true
private val alphabet = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWZYX0987654321"
// 任务取消时调用
override def cancel(): Unit = {
isRunning = false
}
source算子的逻辑，即:每秒钟向流图中注入10000个元组
override def run(sourceContext: SourceContext[SEvent]): Unit = {
while(isRunning) {
for (i <- 0 until 10000) {
sourceContext.collect(SEvent(1, "hello-"+count, alphabet,1))
count += 1L
}
Thread.sleep(1000)
}
}
}
/**
该段代码是流图定义代码，具体实现业务流程，另外，代码中窗口的触发时间使用了event time。
*/
object FlinkEventTimeAPIChkMain {
def main(args: Array[String]): Unit ={
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStateBackend(new FsStateBackend("hdfs://hadoop01:9000/flink-checkpoint/checkpoint/"))
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
env.getCheckpointConfig.setCheckpointInterval(6000)
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
//保留策略:默认情况下，检查点不会被保留，仅用于故障中恢复作业，可以启用外部持久化检查点，同时指定保留策略
//ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION:在作业取消时保留检查点，注意在这种情况下，您必须在取消后手动清理检查点状态
//ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION:当作业被cancel时，删除检查点，检查点状态仅在作业失败时可用
env.getCheckpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION)
// 应用逻辑
val source: DataStream[SEvent] = env.addSource(new SEventSourceWithChk)
source.assignTimestampsAndWatermarks(new AssignerWithPeriodicWatermarks[SEvent] {
// 设置watermark
override def getCurrentWatermark: Watermark = {
new Watermark(System.currentTimeMillis())
}
// 给每个元组打上时间戳
override def extractTimestamp(t: SEvent, l: Long): Long = {
System.currentTimeMillis()
}
})
.keyBy(0)
.window(SlidingEventTimeWindows.of(Time.seconds(4), Time.seconds(1)))
.apply(new WindowStatisticWithChk)
.print()
env.execute()
}
}
//该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。
// 用户自定义状态
class UDFState extends Serializable{
private var count = 0L
// 设置用户自定义状态
def setState(s: Long) = count = s
// 获取用户自定状态
def getState = count
}
//该段代码是window算子的代码，每当触发计算时统计窗口中元组数量。
class WindowStatisticWithChk extends WindowFunction[SEvent, Long, Tuple, TimeWindow] with ListCheckpointed[UDFState]{
private var total = 0L
// window算子的实现逻辑，即:统计window中元组的数量
override def apply(key: Tuple, window: TimeWindow, input: Iterable[SEvent], out: Collector[Long]): Unit = {
var count = 0L
for (event <- input) {
count += 1L
}
total += count
out.collect(count)
}
// 从自定义快照中恢复状态
override def restoreState(state: util.List[UDFState]): Unit = {
val udfState = state.get(0)
total = udfState.getState
}
// 制作自定义状态快照
override def snapshotState(checkpointId: Long, timestamp: Long): util.List[UDFState] = {
val udfList: util.ArrayList[UDFState] = new util.ArrayList[UDFState]
val udfState = new UDFState
udfState.setState(total)
udfList.add(udfState)
udfList
}
}

复制代码

4. 端对端仅处置处罚一次语义

当谈及仅一次处置处罚时，我们真正想表达的是每条输入消息只会影响终极结果一次！（影相应用状态一次，而非被处置处罚一次）即使出现呆板故障或软件瓦解，Flink也要包管不会有数据被重复处置处罚或压根就没有被处置处罚从而影响状态。
在 Flink 1.4 版本之前，精准一次处置处罚只限于 Flink 应用内，也就是所有的 Operator 完全由 Flink 状态生存并管理的才能实现精确一次处置处罚。但 Flink 处置处罚完数据后大多需要将结果发送到外部系统，比如 Sink 到 Kafka 中，这个过程中 Flink 并不包管精准一次处置处罚。
在 Flink 1.4 版本正式引入了一个里程碑式的功能：两阶段提交 Sink，即 TwoPhaseCommitSinkFunction 函数。该 SinkFunction 提取并封装了两阶段提交协议中的公共逻辑，自此 Flink 搭配特定 Source 和 Sink（如 Kafka 0.11 版）实现精确一次处置处罚语义(英文简称：EOS，即 Exactly-Once Semantics)。
在 Flink 中需要端到端精准一次处置处罚的位置有三个：

Flink 端到端精准一次处置处罚
Source 端：数据从上一阶段进入到 Flink 时，需要包管消息精准一次消耗。
Flink 内部端：这个我们已经了解，利用 Checkpoint 机制，把状态存盘，发生故障的时间可以恢复，包管内部的状态同等性。不了解的小同伴可以看下我之前的文章：
Flink可靠性的基石-checkpoint机制详细剖析
Sink 端：将处置处罚完的数据发送到下一阶段时，需要包管数据能够正确无误发送到下一阶段。
1) Flink端到端精准一次处置处罚语义（EOS）
以下内容适用于 Flink 1.4 及之后版本
对于 Source 端：Source 端的精准一次处置处罚比较简朴，毕竟数据是落到 Flink 中，所以 Flink 只需要生存消耗数据的偏移量即可，如消耗 Kafka 中的数据，Flink 将 Kafka Consumer 作为 Source，可以将偏移量生存下来，假如后续任务出现了故障，恢复的时间可以由连接器重置偏移量，重新消耗数据，包管同等性。
对于 Sink 端：Sink 端是最复杂的，由于数据是落地到其他系统上的，数据一旦离开 Flink 之后，Flink 就监控不到这些数据了，所以精准一次处置处罚语义必须也要应用于 Flink 写入数据的外部系统，故这些外部系统必须提供一种手段允许提交或回滚这些写入操作，同时还要包管与 Flink Checkpoint 能够协调使用（Kafka 0.11 版本已经实现精确一次处置处罚语义）。
我们以 Flink 与 Kafka 组合为例，Flink 从 Kafka 中读数据，处置处罚完的数据在写入 Kafka 中。
为什么以Kafka为例，第一个原因是目前大多数的 Flink 系统读写数据都是与 Kafka 系统进行的。第二个原因，也是最重要的原因 Kafka 0.11 版本正式发布了对于事务的支持，这是与Kafka交互的Flink应用要实现端到端精准一次语义的必要条件。
当然，Flink 支持这种精准一次处置处罚语义并不但是限于与 Kafka 的联合，可以使用任何 Source/Sink，只要它们提供了必要的协调机制。
2) Flink 与 Kafka 组合

Flink 应用示例
如上图所示，Flink 中包罗以下组件：
1.一个 Source，从 Kafka 中读取数据（即 KafkaConsumer）
2.一个时间窗口化的聚会操作（Window）
3.一个 Sink，将结果写入到 Kafka（即 KafkaProducer）
若要 Sink 支持精准一次处置处罚语义(EOS)，它必须以事务的方式写数据到 Kafka，如许当提交事务时两次 Checkpoint 间的所有写入操作当作为一个事务被提交。这确保了出现故障或瓦解时这些写入操作能够被回滚。
当然了，在一个分布式且含有多个并发执行 Sink 的应用中，仅仅执行单次提交或回滚是不够的，由于所有组件都必须对这些提交或回滚达成共识，如许才能包管得到一个同等性的结果。Flink 使用两阶段提交协议以及预提交(Pre-commit)阶段来办理这个问题。
3) 两阶段提交协议（2PC）
两阶段提交协议（Two-Phase Commit，2PC）是很常用的办理分布式事务问题的方式，它可以包管在分布式事务中，要么所有加入进程都提交事务，要么都取消，即实现 ACID 中的 A （原子性）。
在数据同等性的环境下，其代表的含义是：要么所有备份数据同时更改某个数值，要么都不改，以此来到达数据的强同等性。
两阶段提交协议中有两个重要角色，协调者（Coordinator）和加入者（Participant），其中协调者只有一个，起到分布式事务的协调管理作用，加入者有多个。
顾名思义，两阶段提交将提交过程分别为一连的两个阶段：表决阶段（Voting）和提交阶段（Commit）。
两阶段提交协议过程如下图所示：

两阶段提交协议
第一阶段：表决阶段
1.协调者向所有加入者发送一个 VOTE_REQUEST 消息。
2.当加入者吸收到 VOTE_REQUEST 消息，向协调者发送 VOTE_COMMIT 消息作为回应，告诉协调者自己已经做好准备提交准备，假如加入者没有准备好或遇到其他故障，就返回一个 VOTE_ABORT 消息，告诉协调者目前无法提交事务。
第二阶段：提交阶段
1.协调者网络来自各个加入者的表决消息。假如所有加入者同等以为可以提交事务，那么协调者决定事务的终极提交，在此情况下协调者向所有加入者发送一个 GLOBAL_COMMIT 消息，关照加入者进行本地提交；假如所有加入者中有任意一个返回消息是 VOTE_ABORT，协调者就会取消事务，向所有加入者广播一条 GLOBAL_ABORT 消息关照所有的加入者取消事务。
2.每个提交了表决信息的加入者等候协调者返回消息，假如加入者吸收到一个 GLOBAL_COMMIT 消息，那么加入者提交本地事务，否则假如吸收到 GLOBAL_ABORT 消息，则加入者取消本地事务。
4) 两阶段提交协议在 Flink 中的应用
Flink 的两阶段提交思路：
我们从 Flink 程序启动到消耗 Kafka 数据，最后到 Flink 将数据 Sink 到 Kafka 为止，来分析 Flink 的精准一次处置处罚。
1.当 Checkpoint 启动时，JobManager 会将检查点分边界（checkpoint battier）注入数据流，checkpoint barrier 会在算子间传递下去，如下如所示：

Flink 精准一次处置处罚：Checkpoint 启动
2.Source 端：Flink Kafka Source 负责生存 Kafka 消耗 offset，当 Chckpoint 成功时 Flink 负责提交这些写入，否则就终止取消掉它们，当 Chckpoint 完成位移生存，它会将 checkpoint barrier（检查点分边界）传给下一个 Operator，然后每个算子会对当前的状态做个快照，生存到状态后端（State Backend）。
对于 Source 任务而言，就会把当前的 offset 作为状态生存起来。下次从 Checkpoint 恢复时，Source 任务可以重新提交偏移量，从上次生存的位置开始重新消耗数据，如下图所示：

Flink 精准一次处置处罚：checkpoint barrier 及 offset 生存
3.Slink 端：从 Source 端开始，每个内部的 transform 任务遇到 checkpoint barrier（检查点分边界）时，都会把状态存到 Checkpoint 里。数据处置处罚完毕到 Sink 端时，Sink 任务起首把数据写入外部 Kafka，这些数据都属于预提交的事务（还不能被消耗），此时的 Pre-commit 预提交阶段下 Data Sink 在生存状态到状态后端的同时还必须预提交它的外部事务，如下图所示：

Flink 精准一次处置处罚：预提交到外部系统
4.当所有算子任务的快照完成（所有创建的快照都被视为是 Checkpoint 的一部门），也就是这次的 Checkpoint 完成时，JobManager 会向所有任务发关照，确认这次 Checkpoint 完成，此时 Pre-commit 预提交阶段才算完成。才正式到两阶段提交协议的第二个阶段：commit 阶段。该阶段中 JobManager 会为应用中每个 Operator 发起 Checkpoint 已完成的回调逻辑。
本例中的 Data Source 和窗口操作无外部状态，因此在该阶段，这两个 Opeartor 无需执行任何逻辑，但是 Data Sink 是有外部状态的，此时我们必须提交外部事务，当 Sink 任务收到确认关照，就会正式提交之前的事务，Kafka 中未确认的数据就改为“已确认”，数据就真正可以被消耗了，如下图所示：

Flink 精准一次处置处罚：数据精准被消耗
注：Flink 由 JobManager 协调各个 TaskManager 进行 Checkpoint 存储，Checkpoint 生存在 StateBackend（状态后端）中，默认 StateBackend 是内存级的，也可以改为文件级的进行持久化生存。
最后，一张图总结下 Flink 的 EOS：

Flink 端到端精准一次处置处罚
此图建议生存，总结全面且简明扼要，再也不怂口试官！

Exactly-Once 案例
Kafka来实现End-to-End Exactly-Once语义：

import java.util.Properties
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.streaming.api.CheckpointingMode
import org.apache.flink.streaming.api.environment.CheckpointConfig
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer011
import org.apache.flink.streaming.util.serialization.KeyedSerializationSchemaWrapper
/**
* Kafka Producer的容错-Kafka 0.9 and 0.10
* 如果Flink开启了checkpoint，针对FlinkKafkaProducer09 和FlinkKafkaProducer010 可以提供 at-least-once的语义，还需要配置下面两个参数
* •setLogFailuresOnly(false)
* •setFlushOnCheckpoint(true)
*
* 注意：建议修改kafka 生产者的重试次数
* retries【这个参数的值默认是0】
*
* Kafka Producer的容错-Kafka 0.11
* 如果Flink开启了checkpoint，针对FlinkKafkaProducer011 就可以提供 exactly-once的语义
* 但是需要选择具体的语义
* •Semantic.NONE
* •Semantic.AT_LEAST_ONCE【默认】
* •Semantic.EXACTLY_ONCE
*/
object StreamingKafkaSinkScala {
def main(args: Array[String]): Unit = {
val env = StreamExecutionEnvironment.getExecutionEnvironment
//隐式转换
import org.apache.flink.api.scala._
//checkpoint配置
env.enableCheckpointing(5000)
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)
env.getCheckpointConfig.setCheckpointTimeout(60000)
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
env.getCheckpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
val text = env.socketTextStream("node01", 9001, '\n')
val topic = "test"
val prop = new Properties()
prop.setProperty("bootstrap.servers", "node01:9092")
//设置事务超时时间，也可在kafka配置中设置
prop.setProperty("transaction.timeout.ms",60000*15+"");
//使用至少一次语义的形式
//val myProducer = new FlinkKafkaProducer011<>(brokerList, topic, new SimpleStringSchema());
//使用支持仅一次语义的形式
val myProducer =
new FlinkKafkaProducer011[String](topic, new KeyedSerializationSchemaWrapper[String](new SimpleStringSchema), prop, FlinkKafkaProducer011.Semantic.EXACTLY_ONCE);
text.addSink(myProducer)
env.execute("StreamingKafkaSinkScala")
}
}

复制代码

Redis实现End-to-End Exactly-Once语义:
代码开辟步骤：
1.获取流处置处罚执行环境
2.设置检查点机制
3.界说kafkaConsumer
4.数据转换：分组，求和
5.数据写入redis
6.触发执行

object ExactlyRedisSink {
def main(args: Array[String]): Unit = {
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1)
env.enableCheckpointing(5000)
env.setStateBackend(new FsStateBackend("hdfs://node01:8020/check/11"))
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
env.getCheckpointConfig.setCheckpointTimeout(60000)
env.getCheckpointConfig.setFailOnCheckpointingErrors(false)
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
env.getCheckpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION)
//设置kafka，加载kafka数据源
val properties = new Properties()
properties.setProperty("bootstrap.servers", "node01:9092,node02:9092,node03:9092")
properties.setProperty("group.id", "test")
properties.setProperty("enable.auto.commit", "false")
val kafkaConsumer = new FlinkKafkaConsumer011[String]("test2", new SimpleStringSchema(), properties)
kafkaConsumer.setStartFromLatest()
//检查点制作成功，才开始提交偏移量
kafkaConsumer.setCommitOffsetsOnCheckpoints(true)
val kafkaSource: DataStream[String] = env.addSource(kafkaConsumer)
//数据转换
val sumData: DataStream[(String, Int)] = kafkaSource.flatMap(_.split(" "))
.map(_ -> 1)
.keyBy(0)
.sum(1)
val set = new util.HashSet[InetSocketAddress]()
set.add(new InetSocketAddress(InetAddress.getByName("node01"),7001))
set.add(new InetSocketAddress(InetAddress.getByName("node01"),7002))
set.add(new InetSocketAddress(InetAddress.getByName("node01"),7003))
val config: FlinkJedisClusterConfig = new FlinkJedisClusterConfig.Builder()
.setNodes(set)
.setMaxIdle(5)
.setMaxTotal(10)
.setMinIdle(5)
.setTimeout(10)
.build()
//数据写入
sumData.addSink(new RedisSink(config,new MyRedisSink))
env.execute()
}
}
class MyRedisSink extends RedisMapper[(String,Int)] {
override def getCommandDescription: RedisCommandDescription = {
new RedisCommandDescription(RedisCommand.HSET,"resink")
}
override def getKeyFromData(data: (String, Int)): String = {
data._1
}
override def getValueFromData(data: (String, Int)): String = {
data._2.toString
}
}

复制代码

8 Flink SQL

Flink SQL 是 Flink 实时计算为简化计算模型，低落用户使用实时计算门槛而设计的一套符合尺度 SQL 语义的开辟语言。自 2015 年开始，阿里巴巴开始调研开源流计算引擎，终极决定基于 Flink 打造新一代计算引擎，针对 Flink 存在的不足进行优化和改进，而且在 2019 年初将终极代码开源，也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡献就是 Flink SQL 的实现。
Flink SQL 是面向用户的 API 层，在我们传统的流式计算领域，比如 Storm、Spark Streaming 都会提供一些 Function 大概 Datastream API，用户通过 Java 或 Scala 写业务逻辑，这种方式固然灵活，但有一些不足，比如具备一定门槛且调优较难，随着版本的不停更新，API 也出现了很多不兼容的地方。
在这个配景下，毫无疑问，SQL 就成了我们最佳选择，之所以选择将 SQL 作为焦点 API，是由于其具有几个非常重要的特点：
SQL 属于设定式语言，用户只要表达清楚需求即可，不需要了解具体做法；
SQL 可优化，内置多种查询优化器，这些查询优化器可为 SQL 翻译出最优执行计划；
SQL 易于理解，不同行业和领域的人都懂，学习成本较低；
SQL 非常稳定，在数据库 30 多年的历史中，SQL 自己变化较少；
流与批的同一，Flink 底层 Runtime 自己就是一个流与批同一的引擎，而 SQL 可以做到 API 层的流与批同一。
1. Flink SQL 常用算子

SELECT：
SELECT 用于从 DataSet/DataStream 中选择数据，用于筛选出某些列。
示例：
SELECT * FROM Table; // 取出表中的所有列
SELECT name，age FROM Table; // 取出表中 name 和 age 两列
与此同时 SELECT 语句中可以使用函数和别名，例如我们上面提到的 WordCount 中：
SELECT word, COUNT(word) FROM table GROUP BY word;
WHERE：
WHERE 用于从数据集/流中过滤数据，与 SELECT 一起使用，用于根据某些条件对关系做水平分割，即选择符合条件的记载。
示例：
SELECT name，age FROM Table where name LIKE ‘% 小明 %’;
SELECT * FROM Table WHERE age = 20;
WHERE 是从原数据中进行过滤，那么在 WHERE 条件中，Flink SQL 同样支持 =、<、>、<>、>=、<=，以及 AND、OR 等表达式的组合，终极满足过滤条件的数据会被选择出来。而且 WHERE 可以联合 IN、NOT IN 联合使用。举个例子：

SELECT name, age
FROM Table
WHERE name IN (SELECT name FROM Table2)

复制代码

DISTINCT：
DISTINCT 用于从数据集/流中去重根据 SELECT 的结果进行去重。
示例：
SELECT DISTINCT name FROM Table;
对于流式查询，计算查询结果所需的 State 可能会无限增长，用户需要自己控制查询的状态范围，以防止状态过大。
GROUP BY：
GROUP BY 是对数据进行分组操作。例如我们需要计算成绩明细表中，每个门生的总分。
示例：
SELECT name, SUM(score) as TotalScore FROM Table GROUP BY name;
UNION 和 UNION ALL：
UNION 用于将两个结果聚集并起来，要求两个结果集字段完全同等，包括字段范例、字段序次。不同于 UNION ALL 的是，UNION 会对结果数据去重。
示例：
SELECT * FROM T1 UNION (ALL) SELECT * FROM T2;
JOIN：
JOIN 用于把来自两个表的数

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)