Apache Sedona(孵化)是一个用于处理大规模空间数据的集群计算系统。Sedona扩展了Apache Spark / SparkSQL,提供了一套开箱即用的空间弹性分布式数据集/ SpatialSQL,可以跨机器有效地加载、处理和分析大规模空间数据。
使用Maven和SBT在5分钟内设置Scala和Java API。
Python和R API也可
系统架构
Apache Sedona是基于geospark改造的高可用的分布式处理平台,属于商业专项孵化项目。
学习网站链接:
Overview - Apache Sedona™ (incubating)
github源码
https://github.com/apache/incubator-sedona/
Aapche Sedona具有以下优点:
高速
根据我们的基准和第三方研究论文,在计算密集型查询负载上,Sedona的运行速度比其他基于spark的地理空间数据系统快2X - 10X。
图 1 多边形连接面图形时间消耗情况
低内存消耗
根据我们的基准和第三方研究论文,对于大规模内存查询处理,Sedona比其他基于spark的地理空间数据系统的峰值内存消耗少50%。以在PyPi和CRAN上使用。
图2 多边形空间连接的最大内存消耗
易用性
Sedona提供Scala、Java、Python和Spatial SQL api,并小心地将它们集成到Apache Spark中。您可以简单地创建空间分析和数据挖掘应用程序并在任何Spark环境中运行它们。