0
点赞
收藏
分享

微信扫一扫

Sqoop实现MySql/Oracle与Hdfs/Hbase互导数据


下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,​​Oracle​​与Hbase的互导最后给出命令。


一、Mysql与HDFS互导数据


环境:


宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96


3台虚拟机操作系统为​​Ubuntu​​-12.04.1-32位


三台虚拟机已成功安装​​Hadoop​​,并实现免密钥互访,配hosts为:


192.168.66.91 masternode


192.168.66.92 slavenode1


192.168.66.93 slavenode2


/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME


实验在masternode上进行,已成功连接mysql


 


步骤一,下载安装包:


我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。


下载相关文件:



​​http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz​​



​​http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz​​



sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。


另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。




步骤二,相关配置:


修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then


# echo “Error: $HBASE_HOME does not exist!”


# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’


# exit 1


#fi


#if [ ! -d "${ZOOKEEPER_HOME}" ]; then


# echo “Error: $ZOOKEEPER_HOME does not exist!”


# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’


# exit 1


#fi


 


修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):


添加 export SQOOP_HOME=/home/grid/sqoop


在原有PATH后添加 :$SQOOP_HOME/bin


 


步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:


创建用户sqoop并授权:


grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;


 


创建表空间(schema)sqoop,并创建测试表:


create table students (



id int not null primary key,



name varchar(20),



age int)


 


插入测试数据:


insert into students values('10001','liyang',29);


insert into students values('10002','lion',28);


insert into students values('10003','leon',26);


 


在masternode测试sqoop能否成功连接宿主机器上的mysql:


sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop


如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!


 


步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:


启动hadoop


start-all.sh


用jps验证启动是否成功


显示正在运行以下进程即为启动成功:


2820 SecondaryNameNode


4539 Jps


2887 JobTracker


2595 NameNode


 


从mysql导入数据,运行如下命令


sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop


 


验证导入数据是否成功:


若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students


运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000


运行 hadoop dfs -cat /user/grid/students/part-m-00000


10001,liyang,29



10002,lion,28



10003,leon,26




步骤五,将HDFS中的数据导入Mysql的students表中:


首先将mysql的students表数据清空:


delete from students;


 


然后在masternode上执行导出数据命令:


sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000




若成功,在mysql中会看到students表中的数据恢复了!




注意:过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!


 


二、Mysql与Hbase互导数据


将mysql的数据导入hbase的命令格式为:



sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name



其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名


 


例如:可通过如下命令将Mysql中的students表导入到Hbase中:


/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id


成功执行后,可在hbase中用以下命令查看结果:


hbase(main):011:0> scan 'students'



ROW COLUMN+CELL



10001 column=stuinfo:age, timestamp=1356759994058, value=29



10001 column=stuinfo:name, timestamp=1356759994058, value=liyang



10002 column=stuinfo:age, timestamp=1356760044478, value=28



10002 column=stuinfo:name, timestamp=1356760044478, value=lion



10003 column=stuinfo:age, timestamp=1356760044478, value=26



10003 column=stuinfo:name, timestamp=1356760044478, value=leon



3 row(s) in 0.0900 seconds


 


三、Oracle与Hbase互导数据


将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)


sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo


 


-------------------------------------------------------------------------------------


注:以上所有命令均实测通过,只需修改参数即可执行!


如有问题请留言指正

举报

相关推荐

0 条评论