使用 Spark [`cartesian()` 问题] 创建邻居矩阵

Question

我是 Spark 初学者，我面临以下问题：我有一个项目集合（假设它们是笛卡尔坐标或 2D 点），我想获取每个项目的附近元素。决定一个项目是否靠近另一个项目取决于一个函数（假设我们想要所有欧氏距离小于给定值的点）。

当然，获得一个点的邻居是微不足道的，我已经做到了。只是 filter 个项目，仅此而已。我不能做的是为集合中的所有点获取它们，我不知道如何有效地做到这一点。

我在这里写了一个我想从一个小数据集中得到的结果的例子，以更清楚地说明我的需求：

sourceData = [ (0,1) , (1,1), (0,0), (50,10), (51,11)  ]
result = [  
            (0,1) => [(1,1), (0,0)], 
            (1,1) => [(0,1), (0,0)],
            (0,0) => [(0,1), (1,1)],
            (50,10) => [(51,11)],
            (51,11) => [(50,10)]
 ]

你知道如何以有效的方式做到这一点吗？

到目前为止，我已经试过了：

return sourceData.cartesian(sourceData)
            .filter(new PairNeighborFilter<T>())
            .groupByKey();

与

 public class PairNeighborFilter<T extends DbScanPoint> implements Function<Tuple2<T, T>, Boolean> {

/**
 * 
 */
private static final long serialVersionUID = 1L;
public static double eps;


@Override
    public Boolean call(Tuple2<T, T> v1) throws Exception {
        return v1._1().distanceTo(v1._2()) <= eps && !v1._1().equals(v1._2());
    }


}

但我确实认为这是一种非常低效的方法。此外，稍后我需要计算每个键的元素，这只能迭代所有元素并计算它们，这是性能的另一个耻辱。我想要 JavaRDD class 作为 JavaPairRDD 的值而不是 Iterable，这可能吗？

谢谢。

Answer 1

为了有效地找到邻居，您可能希望避免进行完整的笛卡尔积，因为它是一个 O(n^2) 操作。一种替代方法是使用局部敏感哈希来识别一组较小的候选点对，然后计算候选点对之间的确切距离。（这是一种 "approximate" 最近邻方法，因为任何特定点的一些真正的最近邻可能不会散列到与所讨论的点相同的桶中。）

有 a few ANN/LSH Spark packages 个可用。

使用 Spark [`cartesian()` 问题] 创建邻居矩阵

Creating a matrix of neighbors with Spark [`cartesian()` issue]

java

hadoop

cartesian-product

bigdata

apache-spark