1、集群规划
使用三台Linux虚拟机来组成集群环境, 非别是:
node1\ node2\ node3
node1运行: Spark的Master进程 和 1个Worker进程
node2运行: spark的1个worker进程
node3运行: spark的1个worker进程
在所有机器安装Python(Anaconda):参考:Anaconda On Linux安装_沉默鹰_90的博客-CSDN博客
在所有机器配置环境变量:参考(以下文档的3、4、5点;Spark先不要安装,最后从node1分发即可):
Spark安装及测试_沉默鹰_90的博客-CSDN博客
2、配置文件设置
3、配置workers文件
4、配置spark-env.sh文件
5、配置spark-defaults.conf文件
6、配置log4j.properties 文件 [可选配置]
7、将Spark安装文件夹 分发到其它的服务器上
8、启动历史服务器
9、启动Spark的Master和Worker进程(/export/server/spark文件下执行)
10、查看Master的WEB UI
默认端口master我们设置到了8080
如果端口被占用, 会顺延到8081 ...;8082... 8083... 直到申请到端口为止
可以在日志中查看, 具体顺延到哪个端口上: