Kettle, 现名 PDI ,是一款开源的ETL工具,基本概念包括
1. Transformation 和 Job
Transformation, 转换, 处理各阶段对数据行的操作,并行处理组件.
基本分发方式
- 分发:以轮流的方式将一行数据发个一个一个数据流
- 复制:将一行数据发给所有数据流
基本组成部分
- 步骤(steps):每一个步骤都对应一个独立的线程,所有步骤以并发方式进行。转换一旦启动,所有步骤同时运行,从输入条读取数据,将处理过的数据输出到输出跳
- 跳(hops) : 步骤之间的连线
2. Job 作业
Job作业是一种串行执行操作的组件。
组成部分
- 作业项
- 作业跳
默认情况下,所有作业项以串行方式执行