将 Cassandra 数据加载到 Titan/Neo4J

Loading Cassandra data into Titan/ Neo4J

我在 Cassandra table 中有维基百科数据(一行 = 一篇维基文章)。现在我想把它插入到图形数据库中,这样我就可以看到它们之间的关系。到目前为止,我尝试的是一条一条地从 Cassandra 获取记录并将它们添加为 Neo4J 中的节点,但这非常慢。有没有一种方法可以使用 Neo4J/Titan 自动从 Cassandra 获取数据并构建图表?

Titan 提供批量加载能力,推荐用于加载大量数据:

http://s3.thinkaurelius.com/docs/titan/1.0.0/bulk-loading.html

这是一个较旧的 link 可能也有帮助,尽管 material 中的一些内容已过时:

http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/

必须有某种类型的 "program" 才能将维基百科数据转换为 属性 图的节点和边。也许这就是您所说的 "automatically" - 询问是否存在开箱即用的导入程序。

我不知道用于维基百科数据的预先存在的 Titan 程序,尽管我确信某处有代码。 link 可能对 Neo4J 有帮助:

https://github.com/mirkonasato/graphipedia

Neo4j

TL;DR; - 没有适用于您的情况的现成工具,但 import-tool 存在

所以,您想将数据迁移到 Neo4j。最快的方法是使用 import tool.

计划:

  • 将您的数据从 Cassandra 转储到 CSV files
  • Download neo4j 并提取到某处
  • 使用 neo4j-import 工具(bin/ 目录),指向您的 CSV 文件并 import them

导入工具非常快并且可以处理千兆字节的数据。