用于百万文件的 ELKI DBSCAN

ELKI DBSCAN for million files

我正在使用dbscan来聚类点,因为我的点数超过100万,我也使用r*-tree。

我在命令行中使用 ELKI:

java -cp elki.jar
de.lmu.ifi.dbs.elki.application.KDDCLIApplication
-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-algorithm clustering.DBSCAN
-dbc.in points1.txt
-dbscan.epsilon 20
-dbscan.minpts 10
-out results3/DBSCANeps20min10

对于小文件没问题,但是对于 400 万个文件出现错误:

at de.lmu.ifi.dbs.elki.database.ids.integer.DoubleIntegerArrayQuickSort.quickSort(Unknown Source)

这是 ELKI 旧版本 中存在许多重复距离的已知错误。

更新到当前版本即可解决