0
点赞
收藏
分享

微信扫一扫

Hive教程(03)- Hive数据模型

sullay 2022-02-21 阅读 66

文章目录

01 引言

在前面的教程,已经把Hive环境搭建起来了,有兴趣的同学可以参阅:

  • 《Hive教程(01)- 初识Hive》
  • 《Hive教程(02)- Hive安装》

既然有了hive的环境,此时大家肯定十分迫切的想把hive用起来,但是用之前,我们是很有必要了解hive的几种数据模型的,也就是需要知道hive把数据最终存在了hdfs的哪里?

02 hive数据模型

hive数据模型关系图如下:
在这里插入图片描述

从上图,可以看到 hive 主要有几种数据模型,分别是:

  • DataBase:数据库
  • Table:表
  • Partition:分区
  • Bucket:桶

2.1 DataBase数据库

DataBase数据库:相当于关系型数据库中的命名空间,作用是将数据库应用隔离到不同的数据库模式中 。

相关的命令:

  • create database 数据库名
  • use 数据库名
  • 以及drop database数据库名等语句;

2.2 Table表

Table:表是由存储的数据以及描述表的一些元数据组成。数据存储再分布式文件系统中,元数据存储在关系型数据库中;

hive表分四种:

  • MANGED_TABLE :内部表
  • EXTERNAL_TABLE:外部表
  • INDEX_TABLE:索引表
  • VIRTUAL_VIEW :视图表

相关的命令(查看表的具体信息使用):

  • desc tablename
  • desc formatted tablename

2.2.1 内部表

hive 会默认把数据存储到 /user/hive/warehouse 目录里面:

CREATE TABLE managed_table (dummy STRING);
LOAD DATA INPATH '/user/tom/data.txt' INTO table managed_table;

2.2.2 外部表

外部表与内部表的行为上有些差别。我们能够控制数据的创建和删除。删除外部表的时候,hive只会删除表的元数据,不会删除表数据(数据路径是在创建表的时候指定的):

CREATE EXTERNAL TABLE external_table (dummy STRING)
LOCATION '/user/tom/external_table';
LOAD DATA INPATH '/user/tom/data.txt' INTO TABLE external_table;

描述利用EXTERNAL关键字创建外部表,Hive不会去管理表数据,所以它不会把数据移到/user/hive/warehouse目录下

2.3 Partition分区

Partition分区hive的分区是根据某列的值进行粗略的划分,每个分区对应HDFS上的一个目录。

创建分区表语法:

CREATE TABLE table_name (column1 data_type, column2 data_type)

PARTITIONED BY (partition1 data_type, partition2 data_type,.);

2.3.1 Partition分区例子

借用大象教程(https://www.hadoopdoc.com/hive/hive-data-model)里的一张图片:
在这里插入图片描述
如上图所示,假如你有一个存储学生信息的表,表名为 student_details,列分别是 student_id,name,department,year 等。现在,如果你想基于 department列对数据进行分区。那么属于同一个 department的学生将会被分在同一个分区里面(在物理上,一个分区其实就是表目录下的一个子目录)。

假如所有 department = EEE 的学生数据被存储在 /user/hive/warehouse/student_details/department=EEE 目录下。那么查询 departmentEEE 的学生信息,只需要查询 EEE 目录下的数据即可,不需要全表扫描,这样查询的效率就比较高。

2.4 Bucket桶

Bucket通描述:

  • hive可以对每一个表或者是分区,进一步组织成桶,也就是说桶是更为细粒度的数据范围划分
  • hive 是针对表的某一列进行分桶
  • hive 采用对表的列值进行哈希计算,然后除以桶的个数求余的方式决定该条记录存放在哪个桶中(分桶的好处是可以获得更高的查询处理效率,使取样更高效)。

要使用hive的分桶功能,首先需要打开hive对桶的控制:

set hive.enforce.bucketing=true;

分桶表创建命令:

CREATE TABLE table_name

PARTITIONED BY (partition1 data_type, partition2 data_type,.) 

CLUSTERED BY (column_name1, column_name2,) 

SORTED BY (column_name [ASC|DESC],)] 

INTO num_buckets BUCKETS;

举例:从2.3.1 Partition分区例子图可以看到,每个分区有 2 个桶。因此每个分区就会有 2 个文件,每个文件将会存储该分区下的数据。

2.5 分区与分桶的区别

分区与分桶的区别:

  • 分区和分桶最大的区别就是分桶随机分割数据库,分区是非随机分割数据库
  • 分区是水平划分,表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助;
  • 分桶是垂直划分,桶是通过对指定列进行哈希计算来实现的,通过哈希值将一个列名下的数据切分为一组桶,并使每个桶对应于该列名下的一个存储文件;
    hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做取余运算的方式来分桶,保证了每个桶中都有数据,但每个桶中的数据条数不一定相等);
  • 分桶是存储在文件中,分区是存放在文件夹中,分桶要比分区查询效率高。

03 文末

本文主要讲解了Hive的四种数据模型( DataBase数据库、Table表、Partition分区、Bucket桶),如有疑问的童鞋欢迎评论区留言,谢谢阅读,本文完!

举报

相关推荐

0 条评论