Mysql和Hive之间通过Sqoop进行数据同步-CFANZ编程社区

文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

查看CPU数

sysctl machdep.cpu

# 核数为4
machdep.cpu.core_count: 4    
# cpu数量为8个，使用了超线程技术：四核八线程
machdep.cpu.thread_count: 8

内存大小

top -l 1 | head -n 10 | grep PhysMem

PhysMem: 16G used (10G wired), 67M unused.

在本地开了3个虚拟机centos服务器

虚拟机服务器配置

服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G

因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来

虚拟机软件给一个虚拟机分配核数和内存的方式

Mysql和Hive之间通过Sqoop进行数据同步_hive

通过Sqoop查看Mysql数据库

/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456

Mysql和Hive之间通过Sqoop进行数据同步_mysql_02

在Hive中创建测试表

创建test表

CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;

创建test_out表

CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

hive删除表

使用truncate仅可删除内部表数据，不可删除表结构

truncate table 表名
（truncate可删除所有的行，但是不能删除外部表）

使用shell命令删除外部表

hdfs -dfs -rm -r 外部表路径

使用 drop 可删除整个表

drop table 表名

查看hive表

查询hive所有表

hive -e "show databases ;" > databases.txt

cat databases.txt
default

指定default数据库

./hive -d default

在Mysql中创建测试表

创建test

DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
  `id` int(10) DEFAULT NULL,
  `uid` int(10) DEFAULT NULL,
  `title` varchar(100) DEFAULT NULL,
  `name` varchar(100) DEFAULT NULL,
  `status` int(10) DEFAULT NULL,
  `time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

插入3条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');

创建test_out

DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
  `name` varchar(100) DEFAULT NULL,
  `count` int(10) DEFAULT NULL,
  `time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Mysql导入Hive

/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct

Mysql和Hive之间通过Sqoop进行数据同步_hive_03

虽然有报错 

ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")

但不影响导入结果

Mysql和Hive之间通过Sqoop进行数据同步_hive_04

查看hive表

Mysql和Hive之间通过Sqoop进行数据同步_sqoop_05

说明从Mysql导入hive成功

增量数据定时导入

mysql test表增加一条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');

删除指定job

/usr/local/sqoop/bin/sqoop job --delete testJob

添加一个增量更新的job

/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test

执行job

/usr/local/sqoop/bin/sqoop job --exec testJob

查看数据已被更新

Mysql和Hive之间通过Sqoop进行数据同步_sqoop_06

查看job

/usr/local/sqoop/bin/sqoop job --show testJob

通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

Hive导入Hive


cd /usr/local/hive/bin

hive

# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

# 或者

INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

Mysql和Hive之间通过Sqoop进行数据同步_hive_07

查看统计结果

Mysql和Hive之间通过Sqoop进行数据同步_hive_08

统计成功

Hive导入Mysql


# hive的default库中的test_out表数据导出到mysql的test库test_out表

/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;

Mysql和Hive之间通过Sqoop进行数据同步_sqoop_09

导出成功

Mysql和Hive之间通过Sqoop进行数据同步_hive_10

可能遇到的问题及注意点

hive访问mysql数据库权限问题

服务器1上hive访问mysql如果报错

Access denied for user 'root'@'192.168.84.128' (using password: YES)

mysql需要授权访问者

GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;

flush privileges;

Mysql和Hive之间通过Sqoop进行数据同步_mysql_11

在namenode上执行

报错：

RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby

原因：

服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态

执行命令要在active的namenode才可以

只有namenode才会有webui 50070端口

服务器1（192.168.84.128）上安装namenode 有50070端口
服务器2（192.168.84.131）上安装secondNamenode 有50070端口
服务器3（192.168.84.132）上没有安装namenode 没有

Mysql和Hive之间通过Sqoop进行数据同步_mysql_12 Mysql和Hive之间通过Sqoop进行数据同步_hive_13

后记

接下来研究的方向：

1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交