0

点赞

收藏

分享

Spark StandAlone环境部署

两岁时就很帅 2022-03-19 阅读 65

标签: spark linux hadoop

1、集群规划

使用三台Linux虚拟机来组成集群环境, 非别是:

node1\ node2\ node3

node1运行: Spark的Master进程和 1个Worker进程

node2运行: spark的1个worker进程

node3运行: spark的1个worker进程

在所有机器安装Python(Anaconda):参考：Anaconda On Linux安装_沉默鹰_90的博客-CSDN博客

在所有机器配置环境变量：参考(以下文档的3、4、5点；Spark先不要安装，最后从node1分发即可）：

Spark安装及测试_沉默鹰_90的博客-CSDN博客

2、配置文件设置

3、配置workers文件

4、配置spark-env.sh文件

5、配置spark-defaults.conf文件

6、配置log4j.properties 文件 [可选配置]

7、将Spark安装文件夹分发到其它的服务器上

8、启动历史服务器

9、启动Spark的Master和Worker进程(/export/server/spark文件下执行）

10、查看Master的WEB UI

默认端口master我们设置到了8080

如果端口被占用, 会顺延到8081 ...;8082... 8083... 直到申请到端口为止

可以在日志中查看, 具体顺延到哪个端口上:

0 条评论

两岁时就很帅

关注