Neo4j 和 Java:Iterable<Relationship> 的快速随机样本

Neo4j and Java: fast and random sample of Iterable<Relationship>

我在 Java 中编写了一个遍历,其中 returns 是一个 Iterable。 最坏情况 是 850784 个关系的可迭代大小。

Objective:我只想抽样(不放回)20 个关系,而且我想快速完成。

解决方案 1:执行 toList() 或以某种 Collection 的形式进行转换需要太多时间(> 1 分钟)。我知道我可以利用 shuffle() 功能等,但这是不可接受的。

解决方案 2:因此,为了直接在 Iterable 上执行此操作,我使用了 guava collect 库,对于以下 3 个步骤中的每一个,我都包括了以毫秒为单位的时间(用 System.nanoTime() 计算并除以 1000000)。我需要为随机数生成器获取 Iterable 的大小,这是一个真正的瓶颈。

    /* TRAVERSAL: 5 ms */
    Iterable<Relationship> simrels = traversal1.traverse(user).relationships();

    /* GET ITERABLE SIZE: 74669 ms */
    int simrelssize =;

    /* RANDOM SAMPLE OF 20: 28321 ms*/
    long seed = System.nanoTime();
    int[] idxs = new int[20];
    Random randomGenerator = new XSRandom(seed);
    for (int i = 0; i < idxs.length; ++i){
        int randomInt = randomGenerator.nextInt(simrelssize);

    List<Relationship> simrelslist2 = new ArrayList<Relationship>();
    for(int i = 0; i < idxs.length; ++i){
        if (i > 0) {
            int pos = idxs[i]-idxs[i-1];
            simrelslist2.add(, pos));
            simrelslist2.add(, idxs[i]));


注意:我有一台 Windows 8.1 PC,i5 2.30GHz,内存 16GB,硬盘 1TB

应 Michal 的要求,请查找以下文件内容:


Traverser traverser = traversal1.traverse(user);
int size = traverser.metadata().getNumberOfRelationshipsTraversed();
Iterable<Relationship> simrels = traverser.relationships();


Neo4j 返回 Iterable 的原因是它在您迭代时执行遍历。为了采样,恐怕你必须 "visit" 每一个关系。是的,你可以跳过一些,但你仍然必须在一天结束时遍历所有这些。

我们为此使用 "reservoir sampling" 算法,implemented here。由于上述原因,不确定它会表现得更好。也就是说,您应该能够在不到 1 秒的时间内使用热缓存对 1M 关系进行采样。如果花费的时间比这更长,您可能需要稍微调整一下内存设置。