文章目录
- 一、上传HDFS数据集
- 二、创建Hive基础表
- 三、Hive表加载数据集
一、上传HDFS数据集
在从hdfs导入数据集之前,hdfs上要预存有数据集 — 上传
# 创建hdfs下的文件夹
hdfs dfs -mkdir -p /dataset
# 将home/data目录下的文件上传至hdfs的dataset目录下
hdfs dfs -put /home/data/studenttab10k /dataset
二、创建Hive基础表
CREATE DATABASE IF NOT EXISTS test;
USE test;
CREATE EXTERNAL TABLE student
(
name STRING,
age INT,
gpa string
)
ROW FORMAT DELIMITED // 定义格式
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE // 存储类型
LOCATION '/dataset/hive'; // 存储路径
- 成功创建表后,hdfs中的dataset目录发生了变化,新建了hive文件夹 ---- 用于存储。
select * from student limit 10;
- 创表后进行查询,可以发现是空表,接下来进行数据集导入~
三、Hive表加载数据集
// 加载数据 数据所在目录 加载模式:覆盖 目标地:student表
LOAD DATA INPATH '/dataset/studenttab10k' OVERWRITE INTO TABLE student;
- 通过查询看到,数据集成功从hdfs中导入到了Hive中的student表中。
- 在成功导入数据之后,hdfs目录dataset下的数据集,转存至了hive文件中,也就是之前创建表时指定的路径。