比赛环境搭建
一.Hadoop(完全分布式)搭建
1.解压jdk到/usr/java目录下
tar -zxvf /chinaskills/jdk-8u162-linux-x64.tar.gz
2.添加环境变量
vim /root/profile
export JAVA_HOME=/usr/java/jdk1.8.0_162/
export PATH=$PATH:$JAVA_HOME/bin
3.设置hosts
cd /etc/hosts
192.168.23.48 master
192.168.23.51 slave1
192.168.23.60 slave2
4.设置免密登入
ssh-keygen -t rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave1
3.分发jdk和/root/profile
scp -r /usr/java/jdk1.8.0_162/ slave1:/usr/java/jdk1.8.0_162/
scp -r /usr/java/jdk1.8.0_162/ slave2:/usr/java/jdk1.8.0_162/
scp -r /root/profile slave:/root/profile
scp -r /root/profile slave2:/root/profile
source /root/profile
4.解压Hadoop并设置环境变量
tar -zxvf hadoop-2.7.7.tar.gz -C /opt/
vim /root/profile
5.为Hadoop提供JAVA解释器路径信息,为Yarn任务、资源管理器提供Java运行环境
vim hadoop-env.sh
export JAVA_HOME=/usr/java/default
vim yarn-env.sh
export JAVA_HOME=/usr/java/default
6.配置HDFS主节点信息、持久化和数据文件的主目录
vim core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
</property>
7.配置HDFS默认的数据存放策略
vim hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50090</value>
</property>
8.配置mapreduce任务调度策略
vim mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
9.配置Yarn资源管理角色的信息
vim yarn-site.xml
<!-- mapredice_shuffle-->
<property>
<name>yarn.nodemanager.aux-service</name>
<value>mapreduce_shuffle</value>
</property>
<!-- yarn主节点rm的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<!-- nm虚拟内存检查,默认为true,会导致任务被kill,设置为false 关闭-->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
10.配置datanode节点信息
vim slaves
master
slave1
slave2
二.spark on yarn
1.解压Scala到目标文件夹并设置环境变量
tar -zxvf scala-。。。。。 -C /usr
vi root/profiles
2.解压spark到目标文件并设置环境变量
tar -zxvf spark-。。。。。。-C /opt
3.修改spark-env.sh文件,添加JAVA_HOME和YARN_CONF_DIR配置
export JAVA_HOME=/usr/app/jdk1.8
export YARN_CONF_DIR=/usr/app/hadoop2.7.3/etc/hadoop
#如果文件需要和hadoop hdfs集成,在文件中需要添加:
export HADOOP_CONF_DIR=/usr/app/hadoop2.7.3/etc/Hadoop
4.分发spark到slave12
scp -r /opt/spark slave1:/opt
scp -r /opt/spark slave1:/opt
5.运行spark自带脚本
/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
/usr/app/spark/examples/jars/spark-examples_2.11-2.3.4.jar 10
三.flink on yarn
1.解压flink到指定目录并设置环境变量
tar -zxvf flink-。。。。。 -C /usr
vi root/profiles
2.添加两个jar包到lib目录下,文件位置在Hadoop/share/hadoop/yarn里面
3.添加链接hsfs文件系统的环境变量
export HADOOP_CLASSPATH=`hadoop classpath`
4.flink自带的jar包
运行自带的jar:
flink run
- -m: 运行环境 yarn
- jar包: exxx
[root@master flink]# bin/flink run -m yarn-cluster examples/batch/WordCount.jar