0

点赞

收藏

分享

8.1.CentOS7安装Spark安装部署及standalone模式介绍

耶也夜 2022-03-11 阅读 51

标签: spark big data hadoop

python编程快速上手（持续更新中…）

推荐系统基础

文章目录

python编程快速上手（持续更新中…）

一、目标

知道Spark的安装过程，知道standalone启动模式
知道spark作业提交集群的过程

二、spark 安装部署

1.下载

spark: 版本spark2.2.0, 下载地址：http://archive.apache.org/dist/spark/spark-2.2.0/
，下载spark-2.2.0-bin-hadoop2.6.tgz

2.安装

a.spark解压到/opt下，并分别重名为scala2118，spark22，然后配置环境变量，具体如下：

b.配置spark环境变量spark-env.sh(需要将spark-env.sh.template重命名)

export SPARK_HOME=/opt/spark
export JAVA_HOME=/opt/jdk8
export HADOOP_HOME=/opt/hadoop
export YARN_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$YARN_HOME/etc/hadoop
export SPARK_MASTER_IP=172.18.2.2
export SPARK_LIBRARY_PATH=$HADOOP_HOME/lib/native
export SPARK_LOCAL_DIRS=/opt/spark/tmp

3.启动

a.进入到$SPARK_HOME/sbin目录

启动Master

启动Slave

jps查看进程

通过SPARK WEB UI查看Spark集群及Spark

三、spark 集群相关概念

1.spark集群架构(Standalone模式)

在这里插入图片描述

2.Spark作业相关概念

Master
- 主节点
- 负责Worker状态管理
- 响应client提交来的Application
Worker
- 管理自身资源
- 运行Applicatoib对应的task
- 启动图driver执行application
Excutor
- task最终执行的容器
Application
- spark作业
Diver
- 作业提交给spark的时候先由一个Worker启动一个Driver来分析Application
- DAGScheduler
  - tash划分交给TaskScheduler
  - 作用可以划分多个stage
  - 每一个stage根据partion的数量觉得由多个task
TaskScheduler
- 将task调度到对应的Excutors上执行
Clent

3.Spark作业图

在这里插入图片描述

0 条评论

关注