MongoDB:根据给定区域和最大点的地理位置对文档进行聚类?

MongoDB: Cluster documents by geographic location given area and max points?

我正在尝试开发基于地图的可视化,其中包括 "heat map" 个子群体,基于包含如下文档的 MongoDB 集合:

{
    "PlaceName" : "Boston",
    "Location" : {
        "type" : "Point",
        "coordinates" : [ 42.358056, -71.063611 ]
    },
    "Subpopulations": {
        "Age": { 
                "0_4" : 37122,
                "6_11" : 33167,
                "12_17" : 35464,
                "18_24" : 130885,
                "25_34" : 127058,
                "34_44" : 79092,
                "45_54" : 72076,
                "55_64" : 59766,
                "65_74" : 33997,
                "75_84" : 20219,
                "85_" : 9057
        }
    }
}

数据库中有数十万个单独的位置。它们 重叠——即 "New York City" 和 "Manhattan".

不会有两个单独的条目

目标是使用 Leaflet.js 和一些插件来呈现此数据的各种可视化效果。 Leaflet 非常擅长在客户端对数据进行聚类——所以如果我将一千个具有密度值的位置传递给它,它可以通过处理所有单个值来呈现相关区域的热图。

问题是,假设我缩小地图以显示整个世界。将所有这些数据发送到客户端并让它足够快地处理这些信息以实现流畅的可视化,如果不是不可能,那将是非常低效的。

所以我需要做的是自动集群数据服务器端,我希望这可以在 MongoDB 查询中完成。我读过 geohashing 可能是确定哪些点属于哪些集群的一个很好的起点,但我确信有人以前做过这件事并且可能比这有更好的洞察力。理想情况下,我想向我的 node.js 脚本发送一个查询,如下所示:

http://myserver.com/popdata?top=42.48&left=-80.57&bottom=37.42&right=-62.55&stat=Age&value=6_11

这将根据指定地理区域内有多少个点来确定聚类的粒度,给定 return 的最大数据点数,或类似的东西;它会 return 这样的数据:

[
    { "clusterlocation": [ 42.304, -72.622 ], "total_age_6_11": 59042 },
    { "clusterlocation": [ 36.255, -64.124 ], "total_age_6_11": 7941 },
    { "clusterlocation": [ 40.425, -70.693 ], "total_age_6_11": 90257 },
    { "clusterlocation": [ 39.773, -67.992 ], "total_age_6_11": 102752 },
    ...
]

...其中 "clusterlocation" 类似于集群中所有文档位置的平均值,而 "total_age_6_11" 是这些文档的 "Subpopulations.Age.6_11" 值的总和。

这是我可以纯粹在 Mongo 查询中做的事情吗?有什么"tried and tested"方法可以做好吗?

即使您在 运行 时执行此查询,它也将是低效且不快速的,无法被视为良好的用户界面。 我建议您预先生成特定大小的集群,并将它们与原始文档一起存储在当前集合中。 方法如下:

  • 每个文档都会存储一个额外的字段(我们称之为 geolevel ),这将表示它是多小或多大的实体。您的基础文档将具有 geolevel=1 :

    {
        "PlaceName" : "Boston",
        "Location" : {
            "type" : "Point",
            "coordinates" : [ 42.358056, -71.063611 ]
        },
        "Subpopulations": {
            "Age": { 
                    "0_4" : 37122,
                    "6_11" : 33167,
                    "12_17" : 35464,
                    "18_24" : 130885,
                    "25_34" : 127058,
                    "34_44" : 79092,
                    "45_54" : 72076,
                    "55_64" : 59766,
                    "65_74" : 33997,
                    "75_84" : 20219,
                    "85_" : 9057
            }
        },
        "geolevel":1  // added geolevel
    }
    
    • 您可以 运行 在您的数据库上处理 pre-generate 类似文档的集群和多个级别。 例如geolevel:2 将是 250 公里半径范围内的几个城市群, geolevel:3 将是 geolevel:2 个簇的簇。

    • 你也可以存储一个像memberids这样的字段来存储children的ids 每个集群。这可能是避免实体进入两个相邻集群所必需的,它可以分配给任何一个相邻集群,并且您的可视化仍然可以正常工作。 geolevel:2 集群文档如下所示:

       {
          "PlaceName" : "cluster_sdfs34535",  // The id can be generated from hash like sha of a list of all children ids.
          "Location" : {  // center of the cluster
              "type" : "Point",
              "coordinates" : [ 42.358056, -71.063611 ]
          },
          "Subpopulations": { // total population of the cluster
              "Age": { 
                      "0_4" : 371220,
                      "6_11" : 331670,
                      "12_17" : 354640,
                      "18_24" : 1308850,
                      "25_34" : 1270580,
                      "34_44" : 790920,
                      "45_54" : 720760,
                      "55_64" : 597660,
                      "65_74" : 339970,
                      "75_84" : 202190,
                      "85_" : 90570
              }
          },
          "geolevel":2 ,
          "childs":[4,5,6,7] // ids of child documents
      }
      
    • 现在您的可视化应用程序需要将缩放级别映射到地理级别,并基于此您将 select 您的文档。对于城市级别的可视化,您可以查询 geolevel:1 文档,当您缩小到州、国家等时,您可以将地理级别增加到 2,3...