0
点赞
收藏
分享

微信扫一扫

ETL异构数据源Datax_部署前置环境_01


文章目录

  • ​​一、概述​​
  • ​​1. 是什么?​​
  • ​​2. 开源地址​​
  • ​​二、简介​​
  • ​​2.1. 设计架构​​
  • ​​2.2. 框架结构​​
  • ​​三、检查环境​​
  • ​​3.1. 检验是否安装JDK(1.8以上,推荐1.8)​​
  • ​​3.2. 检验是否安装python环境,要求2.6=<版本​​
  • ​​3.3. maven环境​​
  • ​​四、JDK环境安装​​
  • ​​4.1. rpm方式安装​​
  • ​​4.2. gz方式安装​​
  • ​​五、python环境安装​​
  • ​​5.1. python 最新版下载​​
  • ​​5.2. python 下载指定版本​​
  • ​​5.3. python 安装​​
一、概述
1. 是什么?

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

2. 开源地址

​​https://github.com/alibaba/DataX​​

######3. DataX下载地址
​​​http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz​​

二、简介
2.1. 设计架构

ETL异构数据源Datax_部署前置环境_01_数据源

数据交换通过DataX进行中转,任何数据源只要和DataX连接上即可以和已实现的任意数据源同步

2.2. 框架结构

ETL异构数据源Datax_部署前置环境_01_java_02

核心组件:
    Reader:数据采集模块,负责从源采集数据
    Writer:数据写入模块,负责写入目标库
    Framework:数据传输通道,负责处理数据缓冲等
    以上只需要重写Reader与Writer插件,即可实现新数据源支持
  支持主流数据源,详见​​​https://github.com/alibaba/DataX/blob/master/introduction.md​​​   从一个JOB来理解datax的核心模块组件:
    datax完成单个数据同步的作业,称为Job,job会负责数据清理、任务切分等工作;
    任务启动后,Job会根据不同源的切分策略,切分成多个Task并发执行,Task就是执行作业的最小单元
    切分完成后,根据Scheduler模块,将Task组合成TaskGroup,每个group负责一定的并发和分配Task

三、检查环境
3.1. 检验是否安装JDK(1.8以上,推荐1.8)

java -version

ETL异构数据源Datax_部署前置环境_01_python_03

3.2. 检验是否安装python环境,要求2.6=<版本

python

ETL异构数据源Datax_部署前置环境_01_python_04

3.3. maven环境

Apache Maven 3.x (Compile DataX)

源码编译环境

​​Linux环境安装并配置Maven​​

四、JDK环境安装

安装方式任选其一

4.1. rpm方式安装

安装jdk
rpm -ivh jdk-8u271-linux-x64.rpm

#设置环境变量
export JAVA_HOME=/usr/java/jdk1.8.0_271-amd64
export PATH=$JAVA_HOME/bin:$PATH
source

4.2. gz方式安装

​​CentOS 7 安装jdk​​

五、python环境安装

Python(推荐Python2.6.X=<版本)

5.1. python 最新版下载

官网:​​https://www.python.org/downloads/​​

声明:请根据系统环境下载

ETL异构数据源Datax_部署前置环境_01_java_05

5.2. python 下载指定版本

根据需求下载即可

ETL异构数据源Datax_部署前置环境_01_java_06


Python-2.7.18.tgz下载地址:

​​https://www.python.org/downloads/release/python-2718/​​

ETL异构数据源Datax_部署前置环境_01_datax_07

5.3. python 安装

#上传服务器指定目录
根据需求而定

#解压
cd /app
tar -zxvf Python-2.7.18.tgz

#指定安装目录
./configure --prefix=/usr/local/python-2.7.18

#编译
make

#安装
make install

#加入环境变量
vi .bash_profile
export PATH=/usr/local/python-2.7.18/bin:$PATH

#刷新环境变量
source .bash_profile

#验证

操作记录:

[root@localhost ~]# python
Python 2.7.5 (default, Aug 7 2019, 00:51:29)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>


举报

相关推荐

0 条评论