前言:
自己想在jupyter跑起来pyspark的环境,不想在ubuntu下简陋的编辑环境,说白就是想要一个编辑器:
在jupyterlab就可以这样编辑了# 也是最后成功的画面
实现步骤
整一个详细的步骤在参考文献哪里已经拥有,这这篇博文的目的是为了下次自己换一台电脑如何快速搭建起来自己可以学习pyspark sql的环境所需。因为时间的原因,各个版本都在不断迭代,即是我看下面大佬博文来学习搭建,奈何自己已经找到所需要的版本,所以会踩很多坑,现在将自己整理所有配置文件夹打包放在这里,下次自己就能快速搭建自己的环境了。
下载链接:通过飞书分享的pyspark搭建需要的文件
- hadoop-3.2.3
- hadooponwindows-master 用于替换文件,得到winutils.exe文件
- scala
- spark-3.2.1-bin-hadoop3.2-scala2.13
- winutils-master github上面找到的各个hadoop版本对应的bin文件里可以找到winutils.exe文件
- jdk-8u201-windows-x64.exe
下次我只需要将所有文件放在一个文件夹里面,然后配置好系统环境就可以用了:
Path环境里面:
bug1 :
py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
py4j.ClientServerConnection.run(ClientServerConnection.java:106)
java.base/java.lang.Thread.run(Thread.java:833)
[IPKernelApp] WARNING | Unknown error in handling PYTHONSTARTUP file C:\ProgramData\spark-3.2.1-bin-hadoop3.2\python\pyspark\shell.py:
解决方法:
是因为jdk版本问题,我一开始的好像是下载了18,应该是下载错误,我更换成1.8,就解决了这个问题。
参考文献:
[1] 最通俗易懂的 Windows10 下配置 pyspark + jupyterlab 讲解(超级详细)_masonsxu的博客-