Hive 创建表 parquet
介绍
在 Hive 中创建 parquet 格式的表需要以下几个步骤:
- 创建数据库(如果不存在)
 - 切换到需要创建表的数据库
 - 创建外部表
 - 加载数据到外部表
 - 创建内部表
 - 插入数据到内部表
 - 验证表的创建和数据加载
 
步骤
| 步骤 | 操作 | 
|---|---|
| 步骤 1 | 创建数据库 | 
| 步骤 2 | 切换到数据库 | 
| 步骤 3 | 创建外部表 | 
| 步骤 4 | 加载数据到外部表 | 
| 步骤 5 | 创建内部表 | 
| 步骤 6 | 插入数据到内部表 | 
| 步骤 7 | 验证表的创建和数据加载 | 
具体操作
步骤 1: 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;
代码解释:创建一个名为 mydatabase 的数据库,如果该数据库不存在。
步骤 2: 切换到数据库
USE mydatabase;
代码解释:切换到 mydatabase 数据库。
步骤 3: 创建外部表
CREATE EXTERNAL TABLE IF NOT EXISTS my_external_table
(
  column1 data_type,
  column2 data_type,
  ...
)
STORED AS PARQUET
LOCATION '/path/to/external/table';
代码解释:创建一个名为 my_external_table 的外部表,指定需要的列和数据类型。数据将以 parquet 格式存储,并且存储在指定的路径 /path/to/external/table。
步骤 4: 加载数据到外部表
LOAD DATA INPATH '/path/to/data' INTO TABLE my_external_table;
代码解释:将 /path/to/data 下的数据加载到 my_external_table 外部表中。
步骤 5: 创建内部表
CREATE TABLE IF NOT EXISTS my_internal_table
(
  column1 data_type,
  column2 data_type,
  ...
)
STORED AS PARQUET;
代码解释:创建一个名为 my_internal_table 的内部表,指定需要的列和数据类型。数据将以 parquet 格式存储。
步骤 6: 插入数据到内部表
INSERT INTO my_internal_table
SELECT * FROM my_external_table;
代码解释:将 my_external_table 外部表中的数据插入到 my_internal_table 内部表中。
步骤 7: 验证表的创建和数据加载
SELECT * FROM my_internal_table;
代码解释:查询 my_internal_table 内部表中的数据,以验证表的创建和数据加载是否成功。
完成以上操作后,你就成功地创建了一个 parquet 格式的 Hive 表,并加载了数据。
希望以上步骤能够帮助到你,如果有任何疑问,请随时向我提问。









