文章目录

前言
准备
1、SELECT查询语句
2、WHERE 条件语句
3、GROUP BY 语句
4、HAVING语句
5、INNER JOIN语句
6、 LEFT OUTER JOIN语句
7、RIGHT OUTER JOIN语句
8、FULL OUTER JOIN语句
9、 LEFT SEMI JOIN语句
10、笛卡尔积 JOIN 语句
11、map-side JOIN语句
12、多表JOIN语句
13、ORDER BY 和 SORT BY 语句
14、 DISTRIBUTE BY 和 SORT BY语句
15、CLUSTER BY语句
16、类型转换

前言

相信大家一定对 Hive 不陌生！Hive 是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。因此，hive十分适合对数据仓库进行统计分析。

今天呢，我们就来探讨一下，关于Hive数据查询的18种方式！

准备

我们本期内容大部分HQL操作都需要依赖如下两张表，具体的数据内容如下：

course
在这里插入图片描述
student

1、SELECT查询语句

SELECT 查询语句比较简单，后面跟要查询的字段，如下所示：

hive (hypers)> select name from student;
OK
name
Rose
Jack
Jimmy
Tom
Jerry

可以为查询语句中的列和表加上别名，如下所示：

hive (hypers)> select t.name from student t;
OK
t.name
Rose
Jack
Jimmy
Tom
Jerry

可以使用如下语句进行嵌套查询：

hive (hypers)> select a.name, b.coursename
             > from (select stuid, name from student) a
             > join (select stuid, coursename from course) b 
             > on a.stuid = b.stuid;

OK
a.name  b.coursename
Rose    C语言
Jack    Java
Jimmy   高等数学
Tom     离散数学
Jerry   C++

可以使用正则表达式指定查询的列，如下所示：

hive (hypers)> select t.* from student t;
OK
t.stuid t.name  t.sex   t.age
15317408        Rose    1       21
15317412        Jack    0       20
15317432        Jimmy   1       21
15317423        Tom     1       20
15317478        Jerry   0       19
15317467        Alice   0       20

可以使用 LIMIT 限制查询的结果条数，如下所示：

hive (hypers)> select * from student limit 1;
OK
student.stuid   student.name    student.sex     student.age
15317408        Rose    1       21

可以使用ORDER BY语句对结果进行排序，升序我们可以不在排序的字段后加上ASC(默认)，但是倒序需要指定DESC，如下所示：

hive (hypers)> select * from student order by age desc;
OK
student.stuid   student.name    student.sex     student.age
15317432        Jimmy   1       21
15317408        Rose    1       21
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317478        Jerry   0       19
Time taken: 10.631 seconds, Fetched: 5 row(s)

hive (hypers)> select * from student order by age;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317432        Jimmy   1       21
15317408        Rose    1       21

我们还可以使用CASE...WHEN...THEN语句对某一列的值进行处理，如下所示：

hive (hypers)> SELECT stuid,
             >        name,
             >        age,
             >        sex,
             >        CASE
             >            WHEN sex = '1' THEN '男'
             >            WHEN sex = '0' THEN '女'
             >            ELSE '未知'
             >            END
             >        FROM student;
OK
stuid   name    age     sex     _c4
15317408        Rose    21      1       男
15317412        Jack    20      0       女
15317432        Jimmy   21      1       男
15317423        Tom     20      1       男
15317478        Jerry   19      0       女
15317478        Alice   20      0       女

2、WHERE 条件语句

WHERE 条件语句主要是对查询进行条件限制，如下所示：

hive (hypers)> select * from student where age = 21;
OK
student.stuid   student.name    student.sex     student.age
15317408        Rose    1       21
15317432        Jimmy   1       21

WHERE 条件语句常用的操作符如该表所示

操作符	支持的数据类型	说明
A=B	基本数据类型	如果A等于B，则返回true，否则返回false
A<=>B	基本数据类型	如果A和B都为NULL，则返回true，其他情况和 A=B 相同
A<>B，A != B	基本数据类型	如果A或者B为NULL，则返回NULL；如果A不等于B返回 true，否则返回 false
A<B	基本数据类型	如果A或者B为NULL，则返回NULL；如果A小于B返回 true，否则返回 false
A<=B	基本数据类型	如果A或者B为NULL，则返回NULL；如果A小于或等于B返回 true，否则返回 false
A>B	基本数据类型	如果A 或者B为NULL，则返回NULL；如果A大于B返回true，否则返回 false
A>=B	基本数据类型	如果A 或者B为NULL，则返回NULL；如果A大于或者等于B返回true，否则返回 false
A IS NULL	所有数据类型	如果A为NULL返回true，否则返回 false
A IS NOT NULL	所有数据类型	如果A不为NULL返回true，否则返回 false
A BETWEEN B AND C	基本数据类型	如果A、B、C任一为NULL，则返回NULL；如果A大于或者等于B并且A小于或等于C，则返回true，否则返回false
A NOT BETWEEN B AND C	基本数据类型	如果A、B、C任一为NULL，则返回NULL；如果A小于B或者A大于C，则返回true，否则返回false
A LIKE B	STRING类型	如果A模糊匹配B，则返回true，否则返回false
A NOT LIKE B	STRING类型	如果A不模糊匹配B，则返回true，否则返回false
A RLIKE B，A REGEXP B	STRING类型	B是一个正则表达式，如果A匹配正则表达式，则返回true，否则返回false

3、GROUP BY 语句

GROUP BY 语句主要是对查询的数据进行分组，通常会和聚合函数一起使用，如下所示：

hive (hypers)> select sex,avg(age) from student group by sex;
OK
sex     _c1
0       19.666666666666668
1       20.666666666666668

4、HAVING语句

HAVING语句主要用来对GROUP BY语句的结果进行条件限制，如下所示：

hive (hypers)> select sex,avg(age) from student group by sex having avg(age) > 20;
OK
sex     _c1
1       20.666666666666668

5、INNER JOIN语句

在 INNER JOIN 语句中，只有进行连接的两个表中都存在与连接条件相匹配的数据时才会被显示在结果数据中，如下所示：

hive (hypers)> select t1.name,t2.coursename from student t1 join course t2 on t1.stuid = t2.stuid;
OK
t1.name t2.coursename
Rose    C语言
Jack    Java
Jimmy   高等数学
Tom     离散数学
Jerry   C++

6、 LEFT OUTER JOIN语句

LEFT OUTER JOIN语句表示左外连接，左外连接查询数据会包含左表中的全部记录，而右表中不符合条件的结果将以NULL的形式出现，如下所示：

hive (hypers)> select t1.name,t2.coursename from student t1 left outer join course t2 on t1.stuid = t2.stuid;
OK
t1.name t2.coursename
Rose    C语言
Jack    Java
Jimmy   高等数学
Tom     离散数学
Jerry   C++
Alice   NULL

7、RIGHT OUTER JOIN语句

RIGHT OUTER JOIN表示右外连接，右外连接查询数据会包含右表中的全部记录，而左表中不符合条件的结果将以 NULL 的形式出现，如下所示：

hive (hypers)> select t1.name,t2.coursename from student t1 right outer join course t2 on t1.stuid = t2.stuid;
OK
t1.name t2.coursename
Rose    C语言
Jack    Java
Jimmy   高等数学
Tom     离散数学
Jerry   C++
NULL    大数据应用开发

8、FULL OUTER JOIN语句

FULL OUTER JOIN语句表示全外连接，结果数据会包含左表和右表的全部数据，不符合条件的用NULL表示，如下所示：

hive (hypers)> select t1.name,t2.coursename from student t1 FULL  outer join course t2 on t1.stuid = t2.stuid;
OK
t1.name t2.coursename
Rose    C语言
Jack    Java
Tom     离散数学
Jimmy   高等数学
NULL    大数据应用开发
Alice   NULL
Jerry   C++

9、 LEFT SEMI JOIN语句

LEFT SEMI JOIN语句表示左半连接，其结果数据对应右表满足 ON 语句中的条件，如下所示：

hive (hypers)> select t1.name from student t1 LEFT SEMI JOIN course t2 on t1.stuid = t2.stuid;
OK
t1.name
Rose
Jack
Jimmy
Tom
Jerry

10、笛卡尔积 JOIN 语句

笛卡尔积 JOIN 语句表示左表的行数乘以右表的行数等于结果集的大小，如下所示：

hive (hypers)> select * from student join course;
OK
student.stuid   student.name    student.sex     student.age     course.stuid    course.coursename     course.score
15317408        Rose    1       21      15317408        C语言   50
15317412        Jack    0       20      15317408        C语言   50
15317432        Jimmy   1       21      15317408        C语言   50
15317423        Tom     1       20      15317408        C语言   50
15317478        Jerry   0       19      15317408        C语言   50
15317467        Alice   0       20      15317408        C语言   50
15317408        Rose    1       21      15317412        Java    60
15317412        Jack    0       20      15317412        Java    60
15317432        Jimmy   1       21      15317412        Java    60
15317423        Tom     1       20      15317412        Java    60
15317478        Jerry   0       19      15317412        Java    60
15317467        Alice   0       20      15317412        Java    60
15317408        Rose    1       21      15317432        高等数学        70
15317412        Jack    0       20      15317432        高等数学        70
15317432        Jimmy   1       21      15317432        高等数学        70
15317423        Tom     1       20      15317432        高等数学        70
15317478        Jerry   0       19      15317432        高等数学        70
15317467        Alice   0       20      15317432        高等数学        70
15317408        Rose    1       21      15317423        离散数学        80
15317412        Jack    0       20      15317423        离散数学        80
15317432        Jimmy   1       21      15317423        离散数学        80
15317423        Tom     1       20      15317423        离散数学        80
15317478        Jerry   0       19      15317423        离散数学        80
15317467        Alice   0       20      15317423        离散数学        80
15317408        Rose    1       21      15317478        C++     90
15317412        Jack    0       20      15317478        C++     90
15317432        Jimmy   1       21      15317478        C++     90
15317423        Tom     1       20      15317478        C++     90
15317478        Jerry   0       19      15317478        C++     90
15317467        Alice   0       20      15317478        C++     90
15317408        Rose    1       21      15317463        大数据应用开发  100
15317412        Jack    0       20      15317463        大数据应用开发  100
15317432        Jimmy   1       21      15317463        大数据应用开发  100
15317423        Tom     1       20      15317463        大数据应用开发  100
15317478        Jerry   0       19      15317463        大数据应用开发  100
15317467        Alice   0       20      15317463        大数据应用开发  100

11、map-side JOIN语句

map-side JOIN语句会在Map阶段将小表读到内存，直接在 Map 端进行JOIN，这种连接需要在查询语句中显式申明，如下所示：

SELECT /* + MapJOIN(t1) */ s1.stuid,s2.stuid  from student s1 JOIN student s2 ON s1.stuid = s2.stuid;

12、多表JOIN语句

Hive支持多张表进行连接，语句如下所示：

hive (hypers)> SELECT *
               FROM test1 t1
               JOIN test2 t2 ON t1.id = t2.id
               JOIN test3 t3 ON t2.id = t3.id

每个 JOIN 都会启动一个 MapReduce 作业。第一个MapReduce作业连接 test1 表和 test2 表，第二个MapReduce作业连接第一个MapReduce作业的输出结果和 test3 表。

13、ORDER BY 和 SORT BY 语句

Hive中的 ORDER BY语句和SQL语句一样，可以实现对结果集的排序，如下所示：

hive (hypers)> select * from student order by age asc,stuId desc;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317432        Jimmy   1       21
15317408        Rose    1       21
Time taken: 11.929 seconds, Fetched: 6 row(s)

上述语句表示按照age字段升序，stuId字段降序排序。

如果Hive表中的数据非常多，使用 ORDER BY排序可能会导致执行的时间过长，此时可以设置Hive的属性 hive.mapred.mode为strict，则排序语句后面必须加上 LIMIT限制查询的结果条数，以避免数据量太多造成的执行时间过长的问题，如下所示：

hive (hypers)> SET hive.mapred.mode = strict;
hive (hypers)> select * from student order by age asc,stuId desc limit 100;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317432        Jimmy   1       21
15317408        Rose    1       21
Time taken: 9.378 seconds, Fetched: 6 row(s)

SORT BY语句会在每个Reduce中对数据进行排序，可以保证每个Reduce输出的数据是有序的（全局不一定有序），并可以提高全局排序的性能，如下所示：

hive (hypers)> select * from student sort by age asc,stuId desc limit 100;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317432        Jimmy   1       21
15317408        Rose    1       21

上述语句会在每个Reduce中对age字段进行升序排序，同时对create_time字段进行降序排序。如果Reduce个数为1，则ORDER BY和SORT BY语句的查询结果相同；如果Reduce个数大于1，则SORT BY输出的结果为局部有序。

14、 DISTRIBUTE BY 和 SORT BY语句

DISTRIBUTE语句结合SORT BY语句可以实现在第一列数据相同时，能够按照第二列数据进行排序，如下所示：

hive (hypers)> select * from student distribute by sex sort by age,stuId;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317412        Jack    0       20
15317423        Tom     1       20
15317467        Alice   0       20
15317408        Rose    1       21
15317432        Jimmy   1       21

DISTRIBUTE BY语句能够保证sex相同的数据进入同一个 Reduce 函数，在 Reduce中再按照 age 和 stuId 排序即可实现在第一列数据相同时，按照第二列数据排序。

15、CLUSTER BY语句

如果 DISTRIBUTE BY 和 SORT BY 语句中的列完全相同，并且都是按照升序排序，则可以使用CLUSTER BY语句代替DISTRIBUTE BY和SORT BY语句，如下所示：

select * from student distribute by age sort by age;

上面的语句等价于：

hive (hypers)> select * from student cluster by age;
OK
student.stuid   student.name    student.sex     student.age
15317478        Jerry   0       19
15317467        Alice   0       20
15317423        Tom     1       20
15317412        Jack    0       20
15317432        Jimmy   1       21
15317408        Rose    1       21