pentaho可读作“彭塔湖”,原名keetle 在keetle被pentaho公司收购后改名而来。pentaho是一款开源ETL工具,纯java编写的C/S模式的工具,可绿色免安装,开箱即用。支持Windows、macOS、Linux平台。
在window上运行就用.bat格式脚本,MacOS 或者 Linux 平台上使用.sh格式脚本2. 开始使用
注意:连接数据库之前需要下载对应的jdbc驱动,例如连接pgsql则需要下载 postgresql-version.jar,r然后将驱动包放到安装目录下的\lib目录这里以kingbase V8为例,因为这个踩了坑。经历如下:
选择表输出,无法配置字段映射,所以前提是表结构一致才可使用。如果是异构表,需要字段映射的,则需要使用 插入/更新 组件如果输入表和输出表结构不一致,即异构表,则需要使用插入/更新组件。从输出中选择插入/更新拖入转换视图中,然后进行步骤连接,进入输出配置
注意:一定要正确连接步骤,否则这步无法获取输入字段,输出字段字段映射配置好后如下
这个运行是运行一次,完成后就结束了。如果要定时运行,则需要作业。点击“启动” 会弹出界面 保存 当前转换
定时作业调度期间,程序不能退出!程序退出,作业即停止至此一个完整的数据处理作业完成了。
合并是笛卡尔积,即A表n条记录,B表n条记录,结果就是n x n条记录,字段是A、B表全部字段,这种方式不建议采用,会消耗更多内存资源。建议拆分成单表同步如果是同构表的话,可拆分为多个单表同步处理。
痛(坑)点总结:验证一下数据,图中标记的行,就是根据前2行数据计算而来,然后进行补充的。在数据源中只记录了前2行数据。
1.脚本编辑区是个文本编辑框,不能像IDEA一样帮助写代码,只能通过日志进行输出验证逻辑
2.建议通用的不涉及pentaho的java代码操作,可以在IDEA中完成,然后拷贝到脚本编辑区。例如需要导入的包就是在IDEA中通过智能导入,然后拷贝的
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) | Powered by Discuz! X3.4 |