python 中的 DBSCAN - 运行 内存不足

DBSCAN in python - Running out of memory

我的数据有 100 万个纬度、经度坐标对。我正在使用带有半正弦距离度量的 DBSCAN 算法。但是,到目前为止,此算法 运行 仅适用于 8000 条记录的数据子集,如果我尝试 运行 整个数据集,运行 会在几秒钟内耗尽内存。有人可以帮忙吗?

通常,您会在点之间的 距离 上使用 epsilon,即纬度和经度。

但是根本就没有用到计数

请阅读 generalized DBSCAN 的自定义内容以将 DBSCAN 应用于此类数据。常规 DBSCAN(或任何其他聚类算法)将 运行 开箱即用地处理您的数据。您可能还想研究空间自相关。