1. 各个框架版本:
kettle版本:
- pdi-ce-8.2.0.0-342
hadoop版本:
- hadoop-2.6.0-cdh5.14.2
hive版本:
- hive-1.1.0-cdh5.14.2
hbase版本:
- hbase-1.2.0-cdh5.14.2
JAVA版本:
- jdk1.8.0_271,需要配置环境变量,网上搜索windows 配置JAVA环境变量 跟着操作即可
注意:
- Kettle和JAVA安装在Windows中,其他的都在Linux中
- 需要先启动hive2服务
2. 下载Kettle(PDI)
- 下载链接:http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/
- pdi-ce-8.2.0.0-342.zip,我选择的是中间的1.0G
3. 解压后配置Kettle
- 首先在自己解压路径下,进到E:\Download\pdi-ce-8.2.0.0-342\data-integration\目录下(该目录需要换到自己的解压路径,以下所有涉及目录都是需要选择自己的安装目录),然后使用软件打开spoon.bat,我用的是Notepad++
# 找到下面这段话,然后在后面添加上一句内容,用来预防后期导数据导致的中文乱码
if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m"
# 添加内容
"-Dfile.encoding=UTF-8"
- 最后的内容如下所示:
4. 添加Hive驱动包到Kettle的lib目录下
- Kettle下lib路径:
- E:\Download\pdi-ce-8.2.0.0-342\data-integration\lib
- 此时由于我的hive在Linux中,所以lib驱动我直接从Linux通过XShell和Xftp拷贝到本地Windows上
- Linux上hive的lib路径:
- /qlw/install/hive-1.1.0-cdh5.14.2
- 将lib中的hive-jdbc-1.1.0-cdh5.14.2-standalone.jar放到本地Windows中E:\Download\pdi-ce-8.2.0.0-342\data-integration\lib下
- 如果后期还需要连接mysql数据库库,只需要下载对应的mysql驱动包放到lib下,从新重启Kettle即可
- mysql驱动包下载链接:
- https://downloads.mysql.com/archives/c-j/
- 然后选择自己所需要的版本,下载解压后,只需要将里面的驱动包放到刚刚的Kettlelib目录下即可
5. 配置Kettle和Hive的一些配置文件
- 进入到E:\Download\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514\lib目录,将刚刚第4步的hive-jdbc-1.1.0-cdh5.14.2-standalone.jar放到该路径下,替换该目录下原有的hive-jdbc-1.1.0-cdh5.14.2.jar
- 退回到E:\Download\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514,将下面的xml文件全部替换为对应Linux中的xml文件
- 然后退回到E:\Download\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin下,打开plugin.properties文件
# 更改以下内容
active.hadoop.configuration=cdh514
6. 启动Kettle
- 双击E:\Download\pdi-ce-8.2.0.0-342\data-integration下的Spoon.bat
7. 配置Hive连接
- 进入Kettle后,双击转换,然后选择菜单栏 ”文件——>新建 ——>转换“,然后再点击”文件——>新建 ——>数据库连接“
- 在从侧边栏查看连接情况