大型数据集的 neo4j 批量导入器的替代方案
Alternative to batch importer for neo4j for large datasets
我正在尝试将大型数据集导入到 Neo4j。我创建了一个 Python 脚本,在读取 .xls 文件后将密码查询写入 .cql 文件,然后我 运行 使用 neo4j-shell 它们。这适用于小型数据集。但是在增加数据集的大小时,我的系统也因此崩溃了。
我很少看到使用批量导入器的建议,但它们通常基于 Java(例如:Groovy),这是我不太习惯使用的东西。那么除了批量插入或至少通过 Python 批量插入外,还有其他选择吗?
您可以尝试 Neo4J Load CSV 工具/密码命令。
它非常灵活,可以与 USING PERIODIC COMMIT 一起使用,通过定期提交来处理非常大的数据集,以防止缓冲区溢出问题并进一步优化过程。
唯一的先决条件是您能够以 CSV 格式导出原始数据。
http://neo4j.com/developer/guide-import-csv/
http://neo4j.com/docs/developer-manual/current/#cypher-query-lang (section 8.6)
我正在尝试将大型数据集导入到 Neo4j。我创建了一个 Python 脚本,在读取 .xls 文件后将密码查询写入 .cql 文件,然后我 运行 使用 neo4j-shell 它们。这适用于小型数据集。但是在增加数据集的大小时,我的系统也因此崩溃了。
我很少看到使用批量导入器的建议,但它们通常基于 Java(例如:Groovy),这是我不太习惯使用的东西。那么除了批量插入或至少通过 Python 批量插入外,还有其他选择吗?
您可以尝试 Neo4J Load CSV 工具/密码命令。 它非常灵活,可以与 USING PERIODIC COMMIT 一起使用,通过定期提交来处理非常大的数据集,以防止缓冲区溢出问题并进一步优化过程。
唯一的先决条件是您能够以 CSV 格式导出原始数据。
http://neo4j.com/developer/guide-import-csv/
http://neo4j.com/docs/developer-manual/current/#cypher-query-lang (section 8.6)