① 将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux (cd /opt/module路径下)并解压缩
② 修改spark-3.0.0-bin-hadoop3.2名称为spark-local
mv spark-3.0.0-bin-hadoop3.2/ spark-local
③ 进入spark-local
cd spark-local/
④ 启动local环境
bin/spark-shell
⑤ Web页面访问:master:4040
⑥ 命令行的使用
sc.textFile("data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
⑦ 提交应用(cd /opt/module/spark-local路径下)
1) --class 表示要执行程序的主类,可以更换为自己写的应用程序
2) --master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量
3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,可以设定为自己打的 jar 包
4) 数字 10 表示程序的入口参数,用于设定当前应用的任务数量
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
⑧ 退出本地模式
:quit