Neo4j 在大数据集上的 MERGE 命令

Question

目前，我正在从事一个在网络分析领域实现Neo4j (V2.2.0) 数据库的项目。加载一些样本后，我试图加载一个大数据集（>1GB，>4M 行）。我面临的问题是，随着数据大小的增长，使用 MERGE 命令所花费的时间呈指数增长。当不是每一行都必须作为一个节点加载时，在线资源对于加载大数据集的最佳方法是什么是模棱两可的，我想对这个主题有所了解。强调一下，在这种情况下，我只是加载节点；关系是下一步。

基本上就三种方法

i) 为属性设置唯一性约束，并创建所有节点。这个方法主要是在引入MERGE命令之前使用的

CREATE CONSTRAINT ON (book:Book) ASSERT book.isbn IS UNIQUE

其次是

USING PERIODIC COMMIT 250
LOAD CSV WITH HEADERS FROM "file:C:\path\file.tsv" AS row FIELDTERMINATOR'\t'
CREATE (:Book{isbn=row.isbn, title=row.title, etc})

根据我的经验，如果发现重复项，这将 return 出错，从而停止查询。

ii) 合并节点及其所有属性。

USING PERIODIC COMMIT 250
LOAD CSV WITH HEADERS FROM "file:C:\path\file.tsv" AS row FIELDTERMINATOR'\t'
MERGE (:Book{isbn=row.isbn, title=row.title, etc})

我曾尝试以这种方式加载我的设置，但在让该过程运行超过 36 小时并逐渐停止后，我认为应该有更好的选择，因为我的 ~200K最终加载了约 750K 个节点。

iii) 基于一个属性合并节点，然后设置其余节点。

USING PERIODIC COMMIT 250
LOAD CSV WITH HEADERS FROM "file:C:\path\file.tsv" AS row FIELDTERMINATOR'\t'
MERGE (b:Book{isbn=row.isbn})
ON CREATE SET b.title = row.title
ON CREATE SET b.author = row.author
etc

我现在正在运行进行测试（约 20K 个节点）以查看从方法 ii 切换到 iii 是否会缩短执行时间，因为较小的样本给出了相互矛盾的结果。是否有我正在监督并可以缩短执行时间的方法？如果我没记错的话，批量插入器只适用于 CREATE 命令，而不适用于 MERGE 命令。

我已经允许 Neo4j 使用 4GB 内存，从我的任务管理器来看这已经足够了（只使用了超过 3GB）。

Answer 1

方法 iii) 应该是最快的解决方案，因为您 MERGE 对抗单个属性。在执行 MERGE 之前是否创建了唯一性约束？如果没有索引（约束或普通索引），随着节点数量的增加，该过程将花费很长时间。

CREATE CONSTRAINT ON (book:Book) ASSERT book.isbn IS UNIQUE

其次是：

USING PERIODIC COMMIT 20000
LOAD CSV WITH HEADERS FROM "file:C:\path\file.tsv" AS row FIELDTERMINATOR'\t'
MERGE (b:Book{isbn=row.isbn})
ON CREATE SET b.title = row.title
ON CREATE SET b.author = row.author

这应该可行，您可以增加 PERIODIC COMMIT。

这样我可以在几分钟内添加几十万个节点。

Answer 2

一般来说，请确保您有适当的索引。首先根据索引的属性合并节点（以利用快速查找），然后根据需要使用 SET.

修改该节点的属性

除此之外，您的两种方法都通过事务层。如果您需要非常快速地将大量数据塞入数据库，您可能不想使用事务来执行此操作，因为它们为您提供了您可能不需要的功能，并且它们需要的开销会减慢您的速度。因此，更大的解决方案是不使用 LOAD CSV 插入数据，而是完全走另一条路线。

如果您使用的是 2.2 系列的 neo4j，您可以选择 batch inserter via java, or the neo4j-import tool 遗憾的是 2.2 之前不可用。它们的共同点是它们都不使用事务。

最后，无论哪种方式，您都应该阅读 Michael Hunger's article on importing data into neo4j，因为它提供了关于正在发生的事情的良好概念性讨论，以及如果您要将大量数据加载到其中，为什么需要跳过事务neo4j.

Neo4j 在大数据集上的 MERGE 命令

Neo4j's MERGE command on big datasets

merge

bigdata

nodes

neo4j

graph-databases