【Hadoop大数据技术】——Hive数据仓库（学习笔记）-CFANZ编程社区

📖 前言： Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，就能够胜任大数据分析方面的工作，还节省了开发人员的学习成本。

在这里插入图片描述

🕒 1. 数据仓库简介

🕘 1.1 什么是数据仓库

数据仓库是一个面向主题的、集成的、随时间变化的，但信息本身相对稳定的数据集合，它用于支持企业或组织的决策分析处理。

🕘 1.2 数据仓库的结构

数据仓库的结构是由数据源、数据存储及管理、OLAP服务器和前端工具四个部分组成。

在这里插入图片描述

数据源：数据源是数据仓库的基础，即系统的数据来源，通常包含企业的各种内部信息和外部信息。
数据存储及管理：数据存储及管理是整个数据仓库的核心，数据仓库的组织管理方式决定了对外部数据的表现形式，针对系统现有的数据，进行抽取、转换和装载，按照主题进行组织数据。
OLAP服务器：OLAP服务器对需要分析的数据按照多维数据模型进行重组，以支持用户随时进行多角度、多层次的分析，并发现数据规律和趋势。
前端工具：前端工具主要包含各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。

🕘 1.3 数据仓库的数据模型

数据模型（Data Model）是数据特征的抽象，在数据仓库建设中，一般围绕星型模型和雪花模型来设计数据模型。

星型模型是以一个事实表和一组维度表组合而成，并以事实表为中心，所有维度表直接与事实表相连。

在这里插入图片描述

雪花模型是当有一个或多个维表没有直接连到事实表上，而是通过其他维表连到事实表上，其图解像多个雪花连在一起，故称雪花模型。雪花模型是对星型模型的扩展，原有的各维表可被扩展为小的事实表，形成一些局部的 "层次 " 区域，被分解的表都连主维度表而不是事实表。

在这里插入图片描述

🕒 2. Hive简介

🕘 2.1 什么是Hive

Hive是建立在Hadoop文件系统上的数据仓库，它提供了一系列工具，能够对存储在HDFS中的数据进行数据提取、转换和加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。Hive定义简单的类SQL查询语言（即HQL），可以将结构化的数据文件映射为一张数据表，允许熟悉SQL的用户查询数据，允许熟悉MapReduce的开发者开发mapper和reducer来处理复杂的分析工作，与MapReduce相比较，Hive更具有优势。

Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处，MySQL与Hive对比如下所示。

对比项	Hive	MySQL
查询语言	Hive QL	SQL
数据存储位置	HDFS	块设备、本地文件系统
数据格式	用户定义	系统决定
数据更新	不支持	支持
事务	不支持	支持
执行延迟	高	低
可扩展性	高	低
数据规模	大	小

🕘 2.2 Hive系统架构

Hive是底层封装了Hadoop的数据仓库处理工具，运行在Hadoop基础上，其系统架构组成主要包含4部分，分别是用户接口、跨语言服务、底层驱动引擎及元数据存储系统。

在这里插入图片描述

🕘 2.3 Hive工作原理

Hive建立在Hadoop系统之上，因此Hive底层工作依赖于Hadoop服务，Hive底层工作原理如下所示。

在这里插入图片描述
(1) CLI将用户提交的HiveQL语句发送给DRIVER。
(2) DRIVER将HiveQL语句发送给COMPILER获取执行计划。
(3) COMPILER从METASTORE获取HiveQL语句所需的元数据。
(4) METASTORE将查询到的元数据信息发送给COMPILER。
(5) COMPILER得到元数据后，首先将HiveQL语句转换为抽象语法树，然后将抽象语法树转换为查询块，接着将查询块转换为逻辑执行计划，最后将逻辑执行计划转换为物理执行计划，并将物理执行计划解析为MapReduce任务发送给DRIVER。
(6) DRIVER将MapReduce任务发送给EXECUTION ENGINE（执行引擎）执行。
(7) CLI向DRIVER发送获取HiveQL语句执行结果的请求。
(8) DRIVER与EXECUTION ENGINE进行通信，请求获取HiveQL语句执行结果的请求。
(9) EXECUTION ENGINE向NameNode发送请求获取HiveQL语句执行结果的请求。

🕘 2.4 Hive数据模型

Hive中所有的数据都存储在HDFS中，它包含数据库（Database）、表（Table）、分区表（Partition）和桶表（Bucket）四种数据类型。
在这里插入图片描述

数据库：数据库用于存储与同一业务相关的一组表，可以有效隔离不同业务的表。
表：表是数据库中用来存储数据的对象，对象以二维表格的形式组织数据。Hive中的表分为内部表和外部表这两种类型。
分区：根据分区规则将表的整体数据划分为多个独立的数据进行存储，每个独立的数据看做是一个分区，每个分区存储在HDFS文件系统的不同目录中。
桶：根据指定分桶规则将表的数据随机、均匀的划分到不同的桶进行存储，每个桶存储在HDFS文件系统的不同文件中。

🕒 3. Hive环境搭建

🕘 3.1 Hive的安装

Hive的安装模式分为三种，分别是嵌入模式、本地模式和远程模式。

嵌入模式
使用内嵌Derby数据库存储元数据，这是Hive的默认安装方式，配置简单，但是一次只能连接一个客户端，适合用来测试，不适合生产环境。
本地模式
采用外部数据库存储元数据，该模式不需要单独开启Metastore服务，因为本地模式使用的是和Hive在同一个进程中的Metastore服务。
远程模式
与本地模式一样，远程模式也是采用外部数据库存储元数据。不同的是，远程模式需要单独开启Metastore服务，然后每个客户端都在配置文件中配置连接该Metastore服务。远程模式中，Metastore服务和Hive运行在不同的进程中。

本文采用本地模式配置：

1、下载并解压Hive安装包

🔎 Hive下载官网

在这里插入图片描述

sudo tar -zxvf ./apache-hive-3.1.3-bin.tar.gz -C /usr/local   # 解压到/usr/local中
cd /usr/local/
sudo mv apache-hive-3.1.3-bin hive       # 将文件夹名改为hive
sudo chown -R hadoop:hadoop hive            # 修改文件权限

2、配置环境变量

vim ~/.bashrc

在该文件最前面一行添加如下内容：

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_HOME=/usr/local/hadoop

HADOOP_HOME需要被配置成你机器上Hadoop的安装路径，比如这里是安装在/usr/local/hadoop目录。

保存退出后，运行如下命令使配置立即生效：

source ~/.bashrc

3、修改/usr/local/hive/conf下的hive-site.xml
执行如下命令：

cd /usr/local/hive/conf
mv hive-default.xml.template hive-default.xml

然后，使用vim编辑器新建一个配置文件hive-site.xml，命令如下：

cd /usr/local/hive/conf
vim hive-site.xml

在hive-site.xml中添加如下配置信息：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false&amp;allowPublicKeyRetrieval=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.cj.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>username to use against metastore database</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
    <description>password to use against metastore database</description>
  </property>
</configuration>

🕘 3.2 安装并配置mysql

这里我们采用MySQL数据库保存Hive的元数据，而不是采用Hive自带的derby来存储元数据。

使用以下命令即可进行mysql安装，注意安装前先更新一下软件源以获得最新版本：

sudo apt-get update  #更新软件源
sudo apt-get install mysql-server  #安装mysql

上述命令会安装以下包：
libaio1 libcgi-fast-perl libcgi-pm-perl libevent-core-2.1-7
libevent-pthreads-2.1-7 libfcgi-bin libfcgi-perl libfcgi0ldbl
libhtml-template-perl libmecab2 libprotobuf-lite23 mecab-ipadic
mecab-ipadic-utf8 mecab-utils mysql-client-8.0
mysql-client-core-8.0 mysql-common mysql-server mysql-server-8.0
mysql-server-core-8.0

因此无需再安装mysql-client等。安装过程会提示设置mysql root用户的密码，设置完成后等待自动安装即可。默认安装完成就启动了mysql。

启动服务器：

service mysql start

确认是否启动成功，mysql节点处于LISTEN状态表示启动成功：

sudo netstat -tap | grep mysql

在这里插入图片描述

进入mysql shell界面：

mysql -u root -p

执行下面命令，查看user和password

sudo cat /etc/mysql/debian.cnf

在这里插入图片描述

执行下面命令，登录MySQL

mysql -u debian-sys-maint -p

在这里插入图片描述

执行下面SQL命令

use mysql;
ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '1111';
quit;

在这里插入图片描述

之后重启MySQL，以root登录，密码就是我们之前设的，这里是1111

sudo service mysql restart
mysql -u root -p

在这里插入图片描述

成功以root身份进入mysql shell界面。

检查一个MySQL的编码设置（一般没问题，是utf8就正常，utf8mb4是utf8的超集）

在这里插入图片描述

退出和关闭mysql服务器：

mysql> quit;

service mysql stop

🕘 3.3 配置MySQL JDBC

下载MySQL JDBC连接驱动JAR包

🔎 JDBC官网

在这里插入图片描述

sudo tar -zxvf mysql-connector-j-8.3.0.tar.gz   #解压
cp mysql-connector-j-8.3.0/mysql-connector-j-8.3.0.jar  /usr/local/hive/lib 	
# 将mysql-connector-j-8.3.0.jar拷贝到/usr/local/hive/lib目录下

启动并登陆MySQL Shell：

service mysql start 
mysql -u root -p

🕘 3.4 配置Hive

新建hive数据库：

mysql> create database hive;    # 这个hive数据库与hive-site.xml中localhost:3306/hive的hive对应，两者名称必须一致，用来保存hive元数据

配置MySQL允许Hive接入：

# 创建hive用户
mysql> create user 'hive'@'localhost' identified by 'hive';
# 将所有数据库的所有表的所有权限赋给hive用户，后面的hive是配置hive-site.xml中配置的连接密码
mysql> grant all privileges on *.* to 'hive'@'localhost'; 
mysql> flush privileges;  # 刷新mysql系统权限关系表

升级元数据：
使用Hive自带的schematool工具升级元数据，也就是把最新的元数据重新写入MySQL数据库中。
可以在终端中执行如下命令

cd /usr/local/hive
./bin/schematool -initSchema -dbType mysql

在这里插入图片描述

🕘 3.5 启动Hive

启动hive之前，请先启动hadoop集群

start-dfs.sh  # 启动Hadoop的HDFS
hive   # 启动Hive

注意，如果没有配置PATH，需加上路径才能运行命令，比如，本文Hadoop安装目录是“/usr/local/hadoop”，Hive的安装目录是“/usr/local/hive”，因此，启动hadoop和hive，要使用下面带路径的方式：

cd /usr/local/hadoop #进入Hadoop安装目录
./sbin/start-dfs.sh
cd /usr/local/hive
./bin/hive

启动进入Hive的交互式执行环境以后，会出现如下命令提示符：

hive>

此时如遇到下图提示：
在这里插入图片描述

是报jar包冲突，进入hive的lib包下，删除log4j-slf4j-impl-2.17.1.jar即可。

在这里插入图片描述

可以在里面输入SQL语句，如果要退出Hive交互式执行环境，可以输入如下命令：

hive>exit;

🕒 4. Hive的常用HiveQL操作

🕘 4.1 Hive基本数据类型

Hive支持基本数据类型和复杂类型，基本数据类型主要有数值类型（INT、FLOAT、DOUBLE）、布尔型和字符串，复杂类型有三种：ARRAY、MAP 和 STRUCT。

🕘 4.2 常用的HiveQL操作命令

Hive常用的HiveQL操作命令主要包括：数据定义、数据操作。

更多关于HiveQL的使用指南可查看林子雨老师的博客

🔎 Hive3.1.3安装和使用指南

🕒 5. 课后习题

一、填空题
1、Hive建表时设置分割字符命令__________
2、Hive查询语句select ceil(2.34)输出内容是______。
3、Hive创建桶表关键字_____，且Hive默认分桶数量是_______。

二、判断题
1、Hive使用length()函数可以求出输出的数量。
2、再创建外部表的同时要加载数据文件，数据文件会移动到数据仓库指定的目录下。
3、Hive是一款独立的数据仓库工具，因此在启动前无需启动任何服务。
4、Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。
5、Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文。

三、选择题
1、Hive是建立在（）之上的一个数据仓库
A、HDFS
B、MapReduce
C、Hadoop
D、HBase
2、Hive查询语言和SQL的一个不同之处在于（）操作
A、Group by
B、Join
C、Partition
D、Union
3、Hive最重视的性能是可测量性、延展性、（）和对于输入格式的宽松匹配性
A、较低恢复性
B、容错性
C、快速查询
D、可处理大量数据
4、以下选项中，哪种类型间的转换是被Hive查询语言所支持的（）
A、Double—Number
B、BigInt—Double
C、Int—BigInt
D、String–Double
5、按粒度大小的顺序，Hive数据被分为：数据库、数据表、（）、桶？
A、元祖
B、栏
C、分区
D、行

四、简答题
1、简述Hive的特点是什么。
2、简述Hive中内部表与外部表区别。

五、编程题
1、创建字段为id、name的用户表，并且以性别gender为分区字段的分区表。

解答：
一、填空题
1、row format delimited fields terminated by char
2、3
3、clustered by、-1

二、判断题（AI解析）

错误。Hive中的length()函数用于计算字符串的长度，而不是输出的数量。
错误。在创建外部表时加载数据文件，数据文件不会移动到数据仓库指定的目录下，而是保留在原来的位置。
错误。虽然Hive是一款数据仓库工具，但在启动Hive之前需要启动Hadoop服务，因为Hive运行在Hadoop之上。
正确。Hive默认不支持动态分区，需要通过设置参数hive.exec.dynamic.partition和hive.exec.dynamic.partition.mode来开启动态分区功能。
正确。Hive分区字段不能与已存在的字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据值。

三、选择题
1、C 2、C 3、B 4、D 5、C

四、简答题
1、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2、创建表阶段：
外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径，内部表会把数据复制或剪切到表的目录下。
删除表阶段：
外部表在删除表的时候只会删除表的元数据信息不会删除表数据，内部表删除时会将元数据信息和表数据同时删除。

五、编程题

create table t_user (id int, name string) 
partitioned by (gender string) 
row format delimited fields terminated by ',';

在这里插入图片描述

OK，以上就是本期知识点“Hive数据仓库”的知识啦~~ ，感谢友友们的阅读。后续还会继续更新，欢迎持续关注哟📌~
💫如果有错误❌，欢迎批评指正呀👀~让我们一起相互进步🚀
🎉如果觉得收获满满，可以点点赞👍支持一下哟~