如何使用微笑库的 CLARANS 方法使用自定义距离矩阵对我的数据进行聚类

Question

我想使用自定义距离矩阵而不是内置算法（即欧几里得）对我的数据进行聚类。而且似乎没有明确的方法。

我尝试将我的一些代码添加到 Smile 项目的演示中。还尝试通过在我的项目中进行测试来做到这一点，这是一段代码：

        StringBuilder sb = new StringBuilder();
        String line;
        while ((line = vrpJsonFromFile.readLine()) != null) {
            sb.append(line).append("\n");
        }
        JSONArray jsonArray = new JSONObject(sb.toString()).getJSONArray("services");
        Double[][] data = new Double[jsonArray.length()][2];
        for (int i = 0; i < jsonArray.length(); i++) {
            JSONObject address = jsonArray.getJSONObject(i).getJSONObject("address");
            data[i][0] = Double.parseDouble(address.getString("lon"));
            data[i][1] = Double.parseDouble(address.getString("lat"));
        }

        // here
        Distance<Double[]> distance1 = (x, y) -> Math.sqrt(Math.pow(y[1]-x[1],2) + Math.pow(y[0]-x[0], 2));
        CLARANS<Double[]> clarans = new CLARANS<>(data, distance1, 3);
        System.out.println(clarans);

此代码使用欧几里德算法创建了一个 CLARANS 聚类（请参阅 //here 注释下方的行）。我应该用我自己的距离矩阵来改变它，我希望在 Smile 中有一种方法可以做到这一点。

Answer 1

您可能会使用

Distance<Integer> d = (i,j) -> matrix[i][j];

聚类对象编号，而不是它们的向量。

但 ELKI 可能值得一看，它为距离矩阵预定义了类，并使用对象集的优化表示，而不是像 lambda 那样必须使用昂贵的盒装 Integer多于。因为 i 和 j 是装箱整数，这需要为每个距离计算额外的内存间接（和缓存未命中），这会大大降低性能。它还具有更好的 FastCLARANS 算法，以及据说快 O(k) 倍的 FastPAM。

如何使用微笑库的 CLARANS 方法使用自定义距离矩阵对我的数据进行聚类

How to cluster my data with a custom distance matrix using smile library's CLARANS method

java

cluster-analysis

k-means

distance-matrix

smile