kettle 被称为可视化编程语言,可以完成复杂的etl工作流。kettle里的代码就是转换和作业。所以呢,我们首先就来说说转换和作业。
跳是两个步骤(驿站)之间的道路(带箭头的连线)
每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据通常包含下面一些信息。
数据以数据行(可以理解为一个表格中的一行) 的形式沿着步骤移动,每个数据行又有多个字段元素(可以理解为一个单元格)构成就像在excel中,每个单元格都可以设置数据格式一样,这里数据行中的字段也有自己的数据类型.
我们经常需要处理大量的数据,所以设计了跳这样的行集缓存规则,使得每个步骤就是一个独立线程.所有步骤都以并发方式执行.如果想要一个任务沿着指定的顺序执行,那么就要使用下面所讲的“作业”来做流程控制
当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳.
直到输入跳里不再有数据,就中止步骤的运行。
当所有的步骤都中止了,整个转换就中止了
负责定义一个完成整个工作流的控制,如将转换的结果发送邮件给相关人员.四、实践操作
因为转换(transformation)以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是 Kettle中的作业
由于案例2需要涉及到MySQL数据库,所以我们需要建立DB连接①下载MySQL驱动(需要下载对应版本的) 我用的是MySQL5.7 ,所以这里下载5.1.37 版本驱动
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) | Powered by Discuz! X3.4 |