ELKI:如何为 K-Means 指定 CSV 的特征列
ELKI: How to Specify Feature Columns of CSV for K-Means
我正在尝试使用 ELKI MiniGUI 运行 K-Means。我有一个包含 15 个特征(列)和标签列的 CSV 数据集。我想用特征列的不同组合做多个 运行s 的 K-Means。
在 MiniGUI 中是否有任何地方可以指定要用于聚类的列的索引?
如果没有,changin/extending ELKI 在 Java 中实现此目的的最简单方法是什么?
这显然可以通过 Java 代码轻松实现,或者只需根据需要预处理数据即可。生成 10 个变体,然后通过命令行启动 ELKI。
但是有一个过滤器到select列:NumberVectorFeatureSelectionFilter
。仅使用第 0、1、2 列(在数字部分;此时标签被单独处理;这是一个向量转换):
-dbc.filter transform.NumberVectorFeatureSelectionFilter
-projectionfilter.selectedattributes 0,1,2
过滤器可以使用我们较新的 IntRangeParameter 进行扩展,以允许 1..3、5..8 等规范;但这还没有实现。
我正在尝试使用 ELKI MiniGUI 运行 K-Means。我有一个包含 15 个特征(列)和标签列的 CSV 数据集。我想用特征列的不同组合做多个 运行s 的 K-Means。
在 MiniGUI 中是否有任何地方可以指定要用于聚类的列的索引?
如果没有,changin/extending ELKI 在 Java 中实现此目的的最简单方法是什么?
这显然可以通过 Java 代码轻松实现,或者只需根据需要预处理数据即可。生成 10 个变体,然后通过命令行启动 ELKI。
但是有一个过滤器到select列:NumberVectorFeatureSelectionFilter
。仅使用第 0、1、2 列(在数字部分;此时标签被单独处理;这是一个向量转换):
-dbc.filter transform.NumberVectorFeatureSelectionFilter
-projectionfilter.selectedattributes 0,1,2
过滤器可以使用我们较新的 IntRangeParameter 进行扩展,以允许 1..3、5..8 等规范;但这还没有实现。