0
点赞
收藏
分享

微信扫一扫

这10个常用的Kettle操作,你不会不行!


        在上一篇博客《一招教你用Kettle整合大数据和Hive,HBase的环境!》中,已经为大家介绍了Kettle高阶操作中所需要涉及到与Hadoop,Hive,HBase等组件的环境配置过程。本篇,就让我们正式步入到Kettle的常用操作中。

        ​码字不易,先赞后看!

这10个常用的Kettle操作,你不会不行!_云计算/大数据


文章目录


  • ​​1. HDFS - Excel​​
  • ​​2. Json - HDFS​​
  • ​​3. Hive - excel​​
  • ​​4. excel - hive​​
  • ​​5. SQL脚本(Hive)​​
  • ​​6. 值映射json-excel​​
  • ​​7. 增加序列 json - excel​​
  • ​​8. 选择字段json - excel​​
  • ​​9. switch​​
  • ​​10. 过滤​​
  • ​​总结​​

1. HDFS - Excel

  • 需求: 从Hadoop文件系统读取文件,并将数据输出到Excel

<1>拖出一个Hadoop文件输入组件和Excel输出组件

这10个常用的Kettle操作,你不会不行!_hive_02

<2>创建一个Hadoop连接对象

友情提示:需要按照上一篇博客所展示的步骤将Kettle集成Hadoop的环境配置好,这一步才能成功!

这10个常用的Kettle操作,你不会不行!_Hadoop_03

这10个常用的Kettle操作,你不会不行!_Java_04

<3>配置HadoopFileInput组件

这一步我们就可以选择已经创建好的连接对象

这10个常用的Kettle操作,你不会不行!_Java_05

还需要设置输入文件的路径

这10个常用的Kettle操作,你不会不行!_Java_06

记得修改编码格式

这10个常用的Kettle操作,你不会不行!_Java_07

预览字段进行查看

这10个常用的Kettle操作,你不会不行!_Kettle_08

这10个常用的Kettle操作,你不会不行!_Kettle_09

<4>配置Excel输出组件

这10个常用的Kettle操作,你不会不行!_Hadoop_10

<5>成功运行

这10个常用的Kettle操作,你不会不行!_Java_11

2. Json - HDFS

  • 需求:读取Json文件,把数据写入到HDFS文件系统的任意目录下。

<1>拖出两个组件

这10个常用的Kettle操作,你不会不行!_hive_12

<2>配置Json文件输入组件

这10个常用的Kettle操作,你不会不行!_Kettle_13

<3>配置HDFS输出组件

这10个常用的Kettle操作,你不会不行!_Java_14

获取字段

这10个常用的Kettle操作,你不会不行!_Java_15

<4>成功运行

这10个常用的Kettle操作,你不会不行!_Hadoop_16

3. Hive - excel

同样我们接下来开始集成Hive,首要前提便是准备大数据HIVE的环境,创建数据表。​准备数据,将数据加载到hive中​。

这10个常用的Kettle操作,你不会不行!_云计算/大数据_17

启动 hive 服务


​hive --service metastore -p 9083 &​

​hive --service hiveserver2 &​

  • 需求:从hive数据库中的test库的a表获取数据,并把数据保存到Excel中。

<1>先拖出表输入和Excel输出组件

这10个常用的Kettle操作,你不会不行!_Java_18

<2>在表输入组件中连接上Hive数据库

这10个常用的Kettle操作,你不会不行!_Java_19

选择需要输入的表

这10个常用的Kettle操作,你不会不行!_Hadoop_20

这10个常用的Kettle操作,你不会不行!_Java_21

<3>配置Excel输出组件

这10个常用的Kettle操作,你不会不行!_云计算/大数据_22

获取字段

这10个常用的Kettle操作,你不会不行!_Kettle_23<4>成功运行

这10个常用的Kettle操作,你不会不行!_Hadoop_24

4. excel - hive

该步骤中的需求与上面一个反过来

需求: 从Excel中读取数据,把数据保存在hive数据库的test数据库的a表中

<1>拖出Excel输入组件和表输出组件

这10个常用的Kettle操作,你不会不行!_hive_25

<2>配置表输入组件

这10个常用的Kettle操作,你不会不行!_Java_26

这10个常用的Kettle操作,你不会不行!_云计算/大数据_27

<3>配置表输出组件,连接Hive数据库

这10个常用的Kettle操作,你不会不行!_云计算/大数据_28

这10个常用的Kettle操作,你不会不行!_Hadoop_29

<4>运行

在运行之前,先让我们来查看a表的数据

这10个常用的Kettle操作,你不会不行!_hive_30

然后运行

这10个常用的Kettle操作,你不会不行!_云计算/大数据_31

运行完毕,查看结果

这10个常用的Kettle操作,你不会不行!_Hadoop_32

5. SQL脚本(Hive)

Kettle中可以执行Hive的HiveSQL语句,使用作业的SQL脚本

需求:

  • 聚合查询a表表中a字段大于1的值,同时建立一个新表new_a保存查询数据

<1>新建一个作业

这10个常用的Kettle操作,你不会不行!_云计算/大数据_33

并拖出图示的几个组件

这10个常用的Kettle操作,你不会不行!_Hadoop_34

这10个常用的Kettle操作,你不会不行!_Hadoop_35

<2>配置SQL组件

这10个常用的Kettle操作,你不会不行!_Java_36

这10个常用的Kettle操作,你不会不行!_hive_37

<3>运行

运行完,我们进入到命令行查看结果

这10个常用的Kettle操作,你不会不行!_Hadoop_38

6. 值映射json-excel

该案例需求:


  • 从user.json中读取数据,并把gender列
            0 -> 男
            1 ->女
            2 ->保密
  • 写入到Excel文件

<1>获取到需要用到的组件并连接

这10个常用的Kettle操作,你不会不行!_Java_39

<2>配置JSON输入组件

这10个常用的Kettle操作,你不会不行!_Hadoop_40

这10个常用的Kettle操作,你不会不行!_Kettle_41

<3>配置值映射组件

设置需要进行映射的字段已经对应的值

这10个常用的Kettle操作,你不会不行!_Kettle_42

<4>配置Excel输出

这10个常用的Kettle操作,你不会不行!_Java_43

这10个常用的Kettle操作,你不会不行!_hive_44

<5>运行成功

这10个常用的Kettle操作,你不会不行!_hive_45

7. 增加序列 json - excel

需求:

  • 从user.json文件中读取数据,并添加序列,把数据保存到Excel

<1>获取到需要使用的组件并连接

这10个常用的Kettle操作,你不会不行!_Hadoop_46

<2>配置JSON输入组件

这10个常用的Kettle操作,你不会不行!_Kettle_47

<3>配置增加序列组件

这10个常用的Kettle操作,你不会不行!_hive_48

<4>配置Excel输出组件

这10个常用的Kettle操作,你不会不行!_Java_49

<5>成功运行

这10个常用的Kettle操作,你不会不行!_hive_50

8. 选择字段json - excel

先为大家解释下什么是选择字段

  • 字段选择是从数据流中选择字段,改变名称,修改数据类型

需求:


  • 从user.json中读取数据
  • 移除birthday和register_date
  • 把phone列名改为telephone,id列名改为key,gender列名改为sex
  • 输出到Excel文件中

<1>获取到所需要的组件,并做连接

这10个常用的Kettle操作,你不会不行!_Java_51

<2>配置JSON输入组件

这10个常用的Kettle操作,你不会不行!_Kettle_52

这10个常用的Kettle操作,你不会不行!_Java_53

<3>配置字段选择组件

这10个常用的Kettle操作,你不会不行!_云计算/大数据_54

<4>配置Excel输出组件

这10个常用的Kettle操作,你不会不行!_hive_55

<5>运行

这10个常用的Kettle操作,你不会不行!_hive_56

9. switch

需求:


  • 从user.json输入读取数据,按sex进行数据分类,把女性,男性,保密分别存到不同的Excel文件里面。
  • 0表示男性
  • 1表示女性
  • 2表示保密

<1>先根据需要把需要用到组件连接起来

这10个常用的Kettle操作,你不会不行!_Hadoop_57

<2>配置Json输入组件

这10个常用的Kettle操作,你不会不行!_Hadoop_58

<3> 设置需要case比较的值

这10个常用的Kettle操作,你不会不行!_云计算/大数据_59

<4>分别配置不同结果输出的Excel组件

这10个常用的Kettle操作,你不会不行!_hive_60

<5>运行

这10个常用的Kettle操作,你不会不行!_Java_61

可以发现根据gender值不同,原先一个文件中的数据被输出到不同的文件

这10个常用的Kettle操作,你不会不行!_Hadoop_62

这10个常用的Kettle操作,你不会不行!_hive_63

这10个常用的Kettle操作,你不会不行!_云计算/大数据_64

10. 过滤

需求:

  • 从user.json读取数据,分离出年龄大于等于25,小于25的数据,分别保存到不同的Excel文件

<1>获取到需要使用的组件并做连接

这10个常用的Kettle操作,你不会不行!_Hadoop_65

<2>配置JSON文件输入组件

这10个常用的Kettle操作,你不会不行!_Hadoop_66

<3>配置过滤组件

这10个常用的Kettle操作,你不会不行!_Hadoop_67

<4>配置Excel输出组件

这10个常用的Kettle操作,你不会不行!_云计算/大数据_68

<5>运行

这10个常用的Kettle操作,你不会不行!_hive_69

同样可以发现年龄大于等于25的在一个文件

这10个常用的Kettle操作,你不会不行!_hive_70

年龄小于25的在另一个文件

这10个常用的Kettle操作,你不会不行!_云计算/大数据_71

总结

        感谢能看到这里的朋友????

        本篇博客博主主要分享了Kettle常用的10个操作,希望大家能够受用????

        本次的分享就到这里,因为博主还是一个​萌新​,能力有限,​如果以上过程中出现了任何的纰漏错误,烦请大佬们指正​。​受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波????

这10个常用的Kettle操作,你不会不行!_Kettle_72



举报

相关推荐

0 条评论