使用 ELKI,尺寸大于 14 时遇到问题

Using ELKI, having troubles with dimensions higher than 14

我正在尝试在 ELKI 中使用 SUBCLU,但为了解决问题,我尝试了 DBSCAN,甚至 KMEANSLloyd,这样我就知道如何输入高维数据。不幸的是,我最多只能输入 14 个维度,任何更高的维度和程序开始抱怨我没有为 "bubble.scaling" 输入参数,即使我已经很清楚了。我通过使用格式类似于 "mouse.csv" 教程文件的 .csv 文件输入数据(这就是我首先想出如何输入维度大于 1 的数据的方式)。我做错了什么?

原来我没有正确格式化 CSV 文件。我需要包含 headers,而不是仅包含其中由空格分隔的数据的 CSV 文件。由于我没有使用随机生成的信息,而且我事先不知道集群的数量,所以 CSV 看起来是这样的。

## Size: 10
########################################################
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14
14 13 12 11 10 9 8 7 6 5 4 3 2 1
14 13 12 11 10 9 8 7 6 5 4 3 2 1

我遇到了同样的问题。在我的例子中,事实证明我的 csv 文件只包含整数列,这些列被视为字符串数据类型而不是数字数据类型。通过将 dbc.parser 设置为 CategoricalDataAsNumberVectorParser,越界错误消失了。