如何使用微笑库的 CLARANS 方法使用自定义距离矩阵对我的数据进行聚类
How to cluster my data with a custom distance matrix using smile library's CLARANS method
我想使用自定义距离矩阵而不是内置算法(即欧几里得)对我的数据进行聚类。而且似乎没有明确的方法。
我尝试将我的一些代码添加到 Smile 项目的演示中。还尝试通过在我的项目中进行测试来做到这一点,这是一段代码:
StringBuilder sb = new StringBuilder();
String line;
while ((line = vrpJsonFromFile.readLine()) != null) {
sb.append(line).append("\n");
}
JSONArray jsonArray = new JSONObject(sb.toString()).getJSONArray("services");
Double[][] data = new Double[jsonArray.length()][2];
for (int i = 0; i < jsonArray.length(); i++) {
JSONObject address = jsonArray.getJSONObject(i).getJSONObject("address");
data[i][0] = Double.parseDouble(address.getString("lon"));
data[i][1] = Double.parseDouble(address.getString("lat"));
}
// here
Distance<Double[]> distance1 = (x, y) -> Math.sqrt(Math.pow(y[1]-x[1],2) + Math.pow(y[0]-x[0], 2));
CLARANS<Double[]> clarans = new CLARANS<>(data, distance1, 3);
System.out.println(clarans);
此代码使用欧几里德算法创建了一个 CLARANS 聚类(请参阅 //here 注释下方的行)。我应该用我自己的距离矩阵来改变它,我希望在 Smile 中有一种方法可以做到这一点。
您可能会使用
Distance<Integer> d = (i,j) -> matrix[i][j];
聚类对象编号,而不是它们的向量。
但 ELKI 可能值得一看,它为距离矩阵预定义了 类,并使用对象集的优化表示,而不是像 lambda 那样必须使用昂贵的盒装 Integer
多于。因为 i
和 j
是装箱整数,这需要为每个距离计算额外的内存间接(和缓存未命中),这会大大降低性能。它还具有更好的 FastCLARANS 算法,以及据说快 O(k) 倍的 FastPAM。
我想使用自定义距离矩阵而不是内置算法(即欧几里得)对我的数据进行聚类。而且似乎没有明确的方法。
我尝试将我的一些代码添加到 Smile 项目的演示中。还尝试通过在我的项目中进行测试来做到这一点,这是一段代码:
StringBuilder sb = new StringBuilder();
String line;
while ((line = vrpJsonFromFile.readLine()) != null) {
sb.append(line).append("\n");
}
JSONArray jsonArray = new JSONObject(sb.toString()).getJSONArray("services");
Double[][] data = new Double[jsonArray.length()][2];
for (int i = 0; i < jsonArray.length(); i++) {
JSONObject address = jsonArray.getJSONObject(i).getJSONObject("address");
data[i][0] = Double.parseDouble(address.getString("lon"));
data[i][1] = Double.parseDouble(address.getString("lat"));
}
// here
Distance<Double[]> distance1 = (x, y) -> Math.sqrt(Math.pow(y[1]-x[1],2) + Math.pow(y[0]-x[0], 2));
CLARANS<Double[]> clarans = new CLARANS<>(data, distance1, 3);
System.out.println(clarans);
此代码使用欧几里德算法创建了一个 CLARANS 聚类(请参阅 //here 注释下方的行)。我应该用我自己的距离矩阵来改变它,我希望在 Smile 中有一种方法可以做到这一点。
您可能会使用
Distance<Integer> d = (i,j) -> matrix[i][j];
聚类对象编号,而不是它们的向量。
但 ELKI 可能值得一看,它为距离矩阵预定义了 类,并使用对象集的优化表示,而不是像 lambda 那样必须使用昂贵的盒装 Integer
多于。因为 i
和 j
是装箱整数,这需要为每个距离计算额外的内存间接(和缓存未命中),这会大大降低性能。它还具有更好的 FastCLARANS 算法,以及据说快 O(k) 倍的 FastPAM。