进行索引地理空间查询的最低要求

Minimum requirement to do indexed geospatial query

我是地理空间领域的新手,我已经设法将 geomesa-spark-jst 添加到使我能够使用地理空间函数的项目中。

我需要查看数百万个地理编码事件 (eventRdd),并根据自定义标准查看它们是否在路段线串的特定距离内 (roadSegmentRdd)。

目前,对于每个事件,我都需要检查整个 roadSegmentRdd 并查看是否满足标准,这根本不是最优的。

如何使用 geomesa 和索引来加快查询速度?最低需要的依赖项是什么?

通常,您至少希望将点数据提取到 GeoMesa 数据存储中,然后您可以根据空间谓词对其进行查询,以有效地筛选出您感兴趣的数据。

GeoMesa 有几个不同的数据存储选项可供您使用,从像 HBase 这样的完全分布式数据库到基于文件系统的轻量级解决方案。最好的将取决于您的性能要求和可用的基础设施。有关不同数据存储的更多信息 here, and Spark specific details here

摄入数据后,您可以尝试here or here中列出的一种连接方法,具体取决于路段 RDD 的大小。