目录
前提准备
(一) Hadoop集群搭建
(二)Anaconda环境搭建
(三)创建pyspark环境
conda create -n pyspark python=3.6 # 基于python3.6创建pyspark虚拟环境
conda activate pyspark # 激活pyspark虚拟环境
pip下载pyhive、pyspark、jieba包
pip install pyspark==2.4.0 jieba pyhive -i https://pypi.tuna.tsinghua.edu.cn/simple
(四)Spark Local模式搭建
1.Spark下载、上传和解压
2.上传Spark压缩包
3.解压上传好的压缩包
4.配置环境变量
export JAVA_HOME=/opt/jdk-1.8
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PAT
export SPARK_HOME=/opt/spark-2.4.0
export PYSPARK_PYTHON=/opt/anaconda3/envs/pyspark/bin/python
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$PATH
export JAVA_HOME=/opt/jdk-1.8
export PYSPARK_PYTHON=/opt/anaconda3/envs/pyspark/bin/python
export PATH=$JAVA_HOME/bin:$PATH
再刷新配置文件
source /etc/profile
source ~/.bashrc
(五)配置Spark配置文件
1.spark-env.sh
2.测试
如果报以下错误,就输入conda activate pyspark 激活环境
成功启动是下图界面