0
点赞
收藏
分享

微信扫一扫

六十二、Spark-Standlone独立集群(上传HDFS进行测试)

皮皮球场 2022-01-23 阅读 29

目录

环境配置

一、解压更名

二、配置环境变量

三、配置Spark参数

四、环境测试

五、提交任务

六、结果查看

七、查看spark任务web-ui

八、停止集群

standalone模式下的模块架构


环境配置

主机名masterslave1slave2
类型masterslaveslave
角色masterworkerworker

 

一、解压更名

        1、解压Scala

tar -zxvf scala-2.11.8.tgz -C /usr/local/

        2、重命名

mv scala-2.11.8 scala

        3、解压Spark

tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local

        4、重命名Spark

mv spark-2.0.0-bin-hadoop2.7 spark

 

二、配置环境变量

        1、添加环境变量

vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

        2、使环境变量立即生效

source /etc/profile

 

三、配置Spark参数

        1、配置slaves/workers

cd /usr/local/spark/conf

        2、修改配置文件名称

mv slaves.template slaves

        3、编辑slaves文件

vim slaves
slave1
slave2

        4、修改配置文件名称

mv spark-env.sh.template spark-env.sh

        5、编辑配置文件

vim spark-env.sh
## 设置JAVA安装目录
JAVA_HOME=/usr/local/jdk1.8.0_221

## HADOOP软件配置文件目录,读取HDFS上文件和运行Spark在YARN集群时需要,先提前配上
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

        6、集群分发

scp -r /usr/local/spark/ slave1:/usr/local/
scp -r /usr/local/spark/ slave2:/usr/local/

 

四、环境测试

        1、启动Spark集群

sbin/start-all.sh

        2、jps查看进程

        3、查看WebUI

 

五、提交任务

        1、启动spark-shell

        2、提交WordCount任务

 

六、结果查看

 

七、查看spark任务web-ui

 

 

八、停止集群

sbin/stop-all.sh

 

☆☆☆standalone模式下的模块架构☆☆☆


 

举报

相关推荐

0 条评论