ELKI：如何为 K-Means 指定 CSV 的特征列

Question

我正在尝试使用 ELKI MiniGUI 运行 K-Means。我有一个包含 15 个特征（列）和标签列的 CSV 数据集。我想用特征列的不同组合做多个运行s 的 K-Means。

在 MiniGUI 中是否有任何地方可以指定要用于聚类的列的索引？

如果没有，changin/extending ELKI 在 Java 中实现此目的的最简单方法是什么？

Answer 1

这显然可以通过 Java 代码轻松实现，或者只需根据需要预处理数据即可。生成 10 个变体，然后通过命令行启动 ELKI。

但是有一个过滤器到select列：NumberVectorFeatureSelectionFilter。仅使用第 0、1、2 列（在数字部分；此时标签被单独处理；这是一个向量转换）：

-dbc.filter transform.NumberVectorFeatureSelectionFilter
-projectionfilter.selectedattributes 0,1,2

过滤器可以使用我们较新的 IntRangeParameter 进行扩展，以允许 1..3、5..8 等规范；但这还没有实现。

ELKI: How to Specify Feature Columns of CSV for K-Means