OracleWhaleStudio Demo：如何从Aurora CDC 实时数据同步到Redshift详细演示

宁睿发表于 2024-12-11 15:45:42

WhaleStudio Demo：如何从Aurora CDC 实时数据同步到Redshift详细演示

视频演示：https://weixin.qq.com/sph/AQ0oGKk12
今天我将向大家详细先容如何利用 WhaleStudio 将数据从 Aurora CDC（Change Data Capture）实时同步至 Redshift 的功能。这是一个强大的数据同步功能，它支持多种数据源，包罗文件、非布局化数据以及多样化的接口。
数据支持范围

首先，WhaleStudio 支持的数据类型非常广泛，涵盖了约 200 种（视频种 160 多种为口误）不同的数据源。无论是布局化还是非布局化的数据，我们都可以大概进行有效的处理和同步。
开启CDC功能

在我们开始数据同步之前，有一个重要的步调需要完成，那就是开启 CDC 的 Binlog 功能。这是由于我们的工作流程是基于读取 Binlog 来进行的。一旦成功连接到 Binlog，就可以继续进行下一步操作。
数据同步流程

接下来，我们将进入项目管理，创建实施的任务定义。这里我们支持多表同步，这意味着我们可以同时处理多个数据表的同步工作。
数据源

Source 指的是数据的来源。我们在这里选择 Aurora CDC，大家可以根据需要选择提前创建的数据源和数据库。
数据分片

在处理大量数据时，我们大概需要关注数据的分片能力。比方，假如有几十亿条数据，我们需要根据数据量进行切片处理。Aurora CDC 支持数据分片，以更好地处理数据，包罗主键等信息。这对于处理大量数据时尤为重要，由于它可以帮助我们更有效地管理和同步数据。具体可以参考视频中所示的设置。
数据类型转换与目标设置

在数据同步过程中，我们需要将数据转换成 SeaTunnel 的数据类型，由于不同数据库的数据类型需要统一。这是一个模型推演，Sink 指的是数据的目的地。我们可以自定义表名，比方，源表名为 A，目标表名为 B。同时，我们可以利用内置变量来保持表名在多表同步时的一致性。
数据同步设置中有两个重要的部分：表布局处理方式和数据处理方式。
表布局处理方式

[*]假如表不存在，我们将创建表。
[*]假如表存在，我们可以选择删除并重修表，大概跳过不处理。
数据处理方式

[*]直接删除数据。
[*]保持表布局并删除数据。
我们还可以自定义路径和临时路径，由于每次写入都会先写到临时文件中，然后再加载，这是对 Redshift 数据库来说最快的方式。
任务运行与数据检验

设置完成后，我们可以进行数据同步。选择运行任务的工作流程，我们可以查看任务是否已经运行，以及读取了多少数据。比方这里，我们已经读取了1,460条数据。
实时数据插入

为了演示，我们来插入更多的数据，由于 CDC 任务可以实时读取数据。通过 SQL 任务，我们试试看插入 100 条数据，并查抄 Redshift 中最终的数据量，以进行数据质量检验。
效果验证

运行任务后，我们可以查抄工作流中的日志，查看读取了多少数据。这里可以看到，数据已经成功插入。
通过 Demo 我们可以相识到，WhaleStudio 数据同步的功能非常丰富，接待大家尝试利用，故意向者可添加小助手咨询详细信息。
http://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/31504_59FFDAF54B2242BA937E04ABB7C2D7C5
本文由白鲸开源提供发布支持！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

WhaleStudio Demo：如何从Aurora CDC 实时数据同步到Redshift详细演示