比赛环境搭建

一.Hadoop（完全分布式）搭建

1.解压jdk到/usr/java目录下

tar -zxvf /chinaskills/jdk-8u162-linux-x64.tar.gz

2.添加环境变量

vim /root/profile
export JAVA_HOME=/usr/java/jdk1.8.0_162/
export PATH=$PATH:$JAVA_HOME/bin

3.设置hosts

cd /etc/hosts
192.168.23.48 master
192.168.23.51 slave1
192.168.23.60 slave2

4.设置免密登入

ssh-keygen -t rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave1

3.分发jdk和/root/profile

scp -r /usr/java/jdk1.8.0_162/ slave1:/usr/java/jdk1.8.0_162/ 
scp -r /usr/java/jdk1.8.0_162/ slave2:/usr/java/jdk1.8.0_162/
scp -r /root/profile slave:/root/profile
scp -r /root/profile slave2:/root/profile
source /root/profile

4.解压Hadoop并设置环境变量

 tar -zxvf hadoop-2.7.7.tar.gz -C /opt/
 vim /root/profile

5.为Hadoop提供JAVA解释器路径信息，为Yarn任务、资源管理器提供Java运行环境

vim hadoop-env.sh
export JAVA_HOME=/usr/java/default
vim yarn-env.sh
export JAVA_HOME=/usr/java/default

6.配置HDFS主节点信息、持久化和数据文件的主目录

vim core-site.xml

<property>
	<name>fs.defaultFS</name>
	<value>hdfs://node01:9000</value>
</property>
<property>
	<name>hadoop.tmp.dir</name>
    
</property>

7.配置HDFS默认的数据存放策略

vim hdfs-site.xml

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>master:50090</value>
</property>

8.配置mapreduce任务调度策略

vim mapred-site.xml

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

9.配置Yarn资源管理角色的信息

vim yarn-site.xml

<!-- mapredice_shuffle-->
<property>
	<name>yarn.nodemanager.aux-service</name>
	<value>mapreduce_shuffle</value>
</property>
<!-- yarn主节点rm的位置-->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>master</value>
</property>
<!-- nm虚拟内存检查，默认为true，会导致任务被kill，设置为false 关闭-->
<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>

10.配置datanode节点信息

vim slaves

master
slave1
slave2

二.spark on yarn

1.解压Scala到目标文件夹并设置环境变量

tar -zxvf scala-。。。。。 -C /usr
vi root/profiles

2.解压spark到目标文件并设置环境变量

tar -zxvf spark-。。。。。。-C /opt

3.修改spark-env.sh文件，添加JAVA_HOME和YARN_CONF_DIR配置

export JAVA_HOME=/usr/app/jdk1.8
export YARN_CONF_DIR=/usr/app/hadoop2.7.3/etc/hadoop
#如果文件需要和hadoop hdfs集成，在文件中需要添加：
export HADOOP_CONF_DIR=/usr/app/hadoop2.7.3/etc/Hadoop

4.分发spark到slave12

scp -r /opt/spark slave1:/opt
scp -r /opt/spark slave1:/opt

5.运行spark自带脚本

/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
/usr/app/spark/examples/jars/spark-examples_2.11-2.3.4.jar 10

三.flink on yarn

1.解压flink到指定目录并设置环境变量

tar -zxvf flink-。。。。。 -C /usr
vi root/profiles

2.添加两个jar包到lib目录下，文件位置在Hadoop/share/hadoop/yarn里面

3.添加链接hsfs文件系统的环境变量

export HADOOP_CLASSPATH=`hadoop classpath`

4.flink自带的jar包

运行自带的jar:

flink run

-m: 运行环境 yarn
jar包： exxx

[root@master flink]# bin/flink run -m yarn-cluster examples/batch/WordCount.jar