📋 博主简介
《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例
《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例
前言
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行案例。
创建笔记本
Databricks中交互式代码采用笔记本编写并运行。在Workspace菜单下点击鼠标右键,在弹出菜单中选择Create菜单下的Notebook来创建笔记本,如图所示。
在笔记本界面输入笔记本的名称、开发语言、集群,可以创建一个在Cluster1集群下运行的基于Python语言进行开发的笔记本,如图所示。
在笔记本中编写Python代码并点击Run Cell菜单直接运行代码,如图所示。
运行完成可以在笔记本中看到输出结果,如图所示。
- Spark版本是3.4.0。
- Spark Master地址是spark://10.139.64.4:7077,这与独立集群的master地址一致。
- 应用名称是Databricks Shell。
点击输出结果中的Spark UI链接,打开Spark Driver Web UI,如图所示。
运行案例
在笔记本中写入WordCount代码,将代码中访问HDFS的文件路径改成访问DBFS的文件路径,修改后的代码如下:
count = sc.textFile("dbfs:/FileStore/tables/words.txt") \
.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(lambda a,b: a + b).collect()
print(count)
点击Run Cell菜单执行单元格代码,执行结果会直接显示在笔记本中单元格的下方,如图所示。
结束语
好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。