利用Apache Beam进行统一批处理与流处理

知者何南 · 2024-7-14 03:44:28

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

Apache Beam是一个开源的统一编程模子，用于界说和执行数据处理流水线，支持批处理和流处理。Beam旨在提供一个简单、可扩展且机动的框架，适用于各种数据处理任务。本文将具体先容如何利用Apache Beam进行批处理和流处理，并通过Java代码示例帮助新人理解。
1. Apache Beam简介

Apache Beam的核心概念包罗：

Pipeline：代表整个数据处理任务。
PCollection：代表数据集，可以是有限的（批处理）或无限的（流处理）。
PTransform：代表数据转换操作。
Runner：负责执行Pipeline，可以是当地执行或分布式执行（如Google Cloud Dataflow、Apache Flink等）。

2. 安装与配置

首先，需要在项目中添加Apache Beam的依赖。在Maven项目中，可以在pom.xml中添加以下依赖：

<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>2.36.0</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java</artifactId>
<version>2.36.0</version>
</dependency>

复制代码

3. 创建一个简单的批处理Pipeline

以下是一个简单的批处理示例，读取一个文本文件并计算每个单词的出现次数。

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.Count;
import org.apache.beam.sdk.transforms.FlatMapElements;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.TypeDescriptors;
public class WordCountBatch {
public static void main(String[] args) {
PipelineOptions options = PipelineOptionsFactory.create();
Pipeline pipeline = Pipeline.create(options);
pipeline
.apply(TextIO.read().from("path/to/input.txt"))
.apply(FlatMapElements.into(TypeDescriptors.strings())
.via(line -> Arrays.asList(line.split("\\s+"))))
.apply(Count.perElement())
.apply(MapElements.into(TypeDescriptors.strings())
.via(kv -> kv.getKey() + ": " + kv.getValue()))
.apply(TextIO.write().to("path/to/output"));
pipeline.run().waitUntilFinish();
}
}

复制代码

代码解释：

创建Pipeline：利用PipelineOptionsFactory.create()创建Pipeline选项，然后创建Pipeline实例。
读取文件：利用TextIO.read().from("path/to/input.txt")读取输入文件。
分割单词：利用FlatMapElements将每行文天职割成单词。
计数：利用Count.perElement()计算每个单词的出现次数。
格式化输出：利用MapElements将结果格式化为字符串。
写入文件：利用TextIO.write().to("path/to/output")将结果写入输出文件。
运行Pipeline：调用pipeline.run().waitUntilFinish()运行并等候Pipeline完成。

4. 创建一个简单的流处理Pipeline

以下是一个简单的流处理示例，从Kafka读取数据并计算每个单词的出现次数。

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.kafka.KafkaIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.Count;
import org.apache.beam.sdk.transforms.FlatMapElements;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.TypeDescriptors;
import org.apache.kafka.common.serialization.StringDeserializer;
public class WordCountStream {
public static void main(String[] args) {
PipelineOptions options = PipelineOptionsFactory.create();
Pipeline pipeline = Pipeline.create(options);
pipeline
.apply(KafkaIO.<String, String>read()
.withBootstrapServers("localhost:9092")
.withTopic("input-topic")
.withKeyDeserializer(StringDeserializer.class)
.withValueDeserializer(StringDeserializer.class)
.withoutMetadata())
.apply(MapElements.into(TypeDescriptors.strings())
.via(kv -> kv.getValue()))
.apply(FlatMapElements.into(TypeDescriptors.strings())
.via(line -> Arrays.asList(line.split("\\s+"))))
.apply(Count.perElement())
.apply(MapElements.into(TypeDescriptors.strings())
.via(kv -> kv.getKey() + ": " + kv.getValue()))
.apply(TextIO.write().to("path/to/output"));
pipeline.run().waitUntilFinish();
}
}

复制代码

代码解释：

创建Pipeline：利用PipelineOptionsFactory.create()创建Pipeline选项，然后创建Pipeline实例。
读取Kafka数据：利用KafkaIO.read()从Kafka读取数据。
提取值：利用MapElements提取Kafka记录的值。
分割单词：利用FlatMapElements将每行文天职割成单词。
计数：利用Count.perElement()计算每个单词的出现次数。
格式化输出：利用MapElements将结果格式化为字符串。
写入文件：利用TextIO.write().to("path/to/output")将结果写入输出文件。
运行Pipeline：调用pipeline.run().waitUntilFinish()运行并等候Pipeline完成。

5. 总结

Apache Beam提供了一个统一的编程模子，使得批处理和流处理可以无缝切换。通过上述示例，我们展示了如何利用Beam进行简单的批处理和流处理任务。希望这些示例能帮助新人更好地理解和利用Apache Beam。
通过深入学习Beam的各种转换和IO操作，你可以构建更复杂和强大的数据处理流水线，满足各种业务需求。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

利用Apache Beam进行统一批处理与流处理

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

利用Apache Beam进行统一批处理与流处理

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

登录参与点评抽奖加入IT实名职场社区