获取 ELKI OPTICSXi 的集群边界

Question

我有一个一维数据集，其直方图显示多个局部最大值，因此我知道在我的一维 space 中有多个区域数据更密集。我想确定这些密集区域的边界，使我能够对某个数据点所在的密集区域/集群进行分类。为此，我正在使用 OPTICS，因为它应该能够更好地处理集群之间的不同密度比较到 DBSCAN。

我在 Java 代码中使用 ELKI（版本 0.6.0）（我知道 ELKI 团队不建议将 ELKI 嵌入 Java，但我需要重复我的工作流程许多数据集，因此在我的案例中最好将其自动化）。下面的代码片段打印集群的开始和结束项目的索引。 ELKI documentation on OPTICSModel 没有明确定义这些索引号对应的内容，但我假设这些是数据库的扩充集群排序中开始和结束数据项的索引（例如 [=21= 的 ClusterOrderResult 对象） ]()-created)，而不是数据库本身的开始和结束数据项的索引（无序）。

ListParameterization opticsParams = new ListParameterization();
opticsParams.addParameter(OPTICSXi.XI_ID, 0.01);
opticsParams.addParameter(OPTICS.MINPTS_ID, 100);
OPTICSXi<DoubleDistance> optics = ClassGenericsUtil.parameterizeOrAbort(OPTICSXi.class, opticsParams);

ArrayAdapterDatabaseConnection arrayAdapterDatabaseConnection = new ArrayAdapterDatabaseConnection(myListOfOneDimensionalFeatureVectors.toArray(new double[myListOfOneDimensionalFeatureVectors.size()][2]));
ListParameterization dbParams = new ListParameterization();
dbParams.addParameter(AbstractDatabase.Parameterizer.INDEX_ID, RStarTreeFactory.class);
dbParams.addParameter(RStarTreeFactory.Parameterizer.BULK_SPLIT_ID, SortTileRecursiveBulkSplit.class);
dbParams.addParameter(AbstractDatabase.Parameterizer.DATABASE_CONNECTION_ID, arrayAdapterDatabaseConnection);

Database db = ClassGenericsUtil.parameterizeOrAbort(StaticArrayDatabase.class, dbParams);
db.initialize();

result = optics.run(db);
List<Cluster<OPTICSModel>> clusters = result.getAllClusters();
    for(Cluster<OPTICSModel> cluster : clusters){
        if(!cluster.isNoise())
            System.out.println(cluster.getModel().getStartIndex() + ", "+ cluster.getModel().getEndIndex() +";  ");
    }

现在我想知道在我的一维 space 中我的聚类的开始和结束位置。因此，我想检索与我上面的代码已经获得的开始和结束索引对应的数据项。我假设我需要一个 ClusterOrderResult 对象，然后我可以从中检索获得的索引。然而，在文档中，似乎无法从我通过调用 optics.run() 获得的聚类结果对象中检索此类内容。由于似乎没有办法获得这个有序的数据库，我天真地尝试从我的原始输入数据集中获取索引，而不是将上面代码中的 println 替换为下面的 println：

System.out.println(myListOfOneDimensionalFeatureVectors.get(cluster.getModel().getStartIndex())[0] + ", "+ myListOfOneDimensionalFeatureVectors.get(cluster.getModel().getEndIndex())[0] +";  ";

然而，正如我预料的那样，索引似乎不属于原始输入文件，因为这会定期打印一维 space 中的值低于结束边界的结束边界。任何人都知道有什么方法可以获取与 OPTICS 聚类找到的开始和结束索引相对应的原始一维数据值吗？我想稍后在我的代码中使用这些值。

Answer 1

出于自动化的目的，从命令行调用 ELKI 确实非常有效。这是我的首选方式，因为这样每个运行都很好地隔离在自己的 JVM 中。

然后您可以从输出文件轻松访问此数据。

您为什么使用旧版本的 ELKI？由于删除了泛型，0.6.5 版本要好得多。虽然我现在已经切换到 github 版本了。

如果您想直接访问 ClusterOrder 对象，它会作为 子结果 附加到聚类对象。您应该可以使用

获取它

ClusterOrder clusterOrder = ResultUtil.filterResults(clustering, ClusterOrder.class).get(0);

及其对象 ID 通过：

ArrayDBIDs ids = DBIDUtil.ensureArray(clusterOrder.getDBIDs());

（ensureArray 是开销，但无论如何它是一个 noop - 这是一个转换或转换操作，这里将是一个转换；至少在我的 ELKI 版本中，id 总是被存储作为 ArrayDBIDs)

数组迭代器 (DBIDArrayIter it = ids.iter()) 可以通过 seek(offset) 移动到某个位置。所以你应该可以使用像

这样的东西

DBIDArrayIter it = ids.iter();
NumberVector vec = relation.get(it.seek(model.getStartIndex()));

ELKI 中的迭代器对于 Java API 来说很奇怪，但是如果您对所有访问使用单个迭代器则速度非常快。

您的 ELKI 问题部分就到此为止。但是，从统计的角度来看 在一维数据上使用 OPTICS 是没有意义的 。在一维数据上，请改用适当的 核密度估计 。 OPTICS 是一种粗略的方法，当您的数据太复杂而无法使用适当的统计工具进行建模时，它就很有意义。 OPTICS 使用非常原始的核密度，而 xi 方法是从密度图中非常简单地提取聚类……至少在一维数据上，统计提供了更强大的工具。 ELKI有一个实现叫做KNNKernelDensityMinimaClustering，但是我还没有用过。但是核密度估计应该在任何统计工具包中都可用，所以我会尝试一下 class。

获取 ELKI OPTICSXi 的集群边界

Obtaining cluster boundaries of ELKI OPTICSXi

cluster-analysis

machine-learning

data-mining

elki

optics-algorithm