Spark在Local环境下的使用-CFANZ编程社区

Spark在Local环境下的使用

① 将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux (cd /opt/module路径下)并解压缩

Spark在Local环境下的使用_jar

② 修改spark-3.0.0-bin-hadoop3.2名称为spark-local

mv spark-3.0.0-bin-hadoop3.2/ spark-local

Spark在Local环境下的使用_spark_02

③ 进入spark-local

cd spark-local/

Spark在Local环境下的使用_hadoop_03

④ 启动local环境

bin/spark-shell

Spark在Local环境下的使用_Spark_04

⑤ Web页面访问：master:4040

Spark在Local环境下的使用_Spark_05

⑥ 命令行的使用

sc.textFile("data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

Spark在Local环境下的使用_hadoop_06

⑦ 提交应用（cd /opt/module/spark-local路径下）

1) --class 表示要执行程序的主类，可以更换为自己写的应用程序

2) --master local[2] 部署模式，默认为本地模式，数字表示分配的虚拟 CPU 核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包，可以设定为自己打的 jar 包

4) 数字 10 表示程序的入口参数，用于设定当前应用的任务数量

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.0.0.jar \

10

Spark在Local环境下的使用_jar_07

⑧ 退出本地模式

:quit

0 条评论