Spark 如何加速批量加载到 JanusGraph？

How Spark can speed up bulk loading to JanusGraph?

我需要使用 Cassandra 后端从其他存储将大量顶点和边加载到 JanusGraph。我读过有关批量加载和 Spark 配置的信息 (https://docs.janusgraph.org/advanced-topics/bulk-loading/ and https://docs.janusgraph.org/advanced-topics/hadoop/)。

很清楚如何为 Spark 使用配置 JanusGraph，但我仍然不确定如何使用 Spark，以及 Spark 是否有助于加快插入图形的速度。

请给出一些使用 Hadoop MapReduce 或 Spark 来加速向 Janusgraph 批量加载数据的用例和代码示例（首选 Java 或 Python）。欢迎任何帮助！

我最近在 POC 项目上工作，使用 Apache Spark 将数据批量加载到 JanusGraph 中。我们在使用 Spark 加载数据时获得了很好的性能。下面的文章中提供了设置和示例代码。

https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-ace7d146af05

https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-part-2-ca946db26582

或者，您可以编写 Kafka 消费者应用程序以将数据从 Kafka 加载到 JanusGraph。并行度将限制为您的应用程序从中读取数据的 source/input 主题的分区数。该应用程序将是 single-threaded，但您可以将您的应用程序扩展到输入主题的数量。您的应用程序的每个实例都可以打开连接并使用事务写入 JanusGraph。您可以批量处理具有一定批量大小的事务以分散负载。

Spark 如何加速批量加载到 JanusGraph？

How Spark can speed up bulk loading to JanusGraph?

bulkinsert

apache-spark

janusgraph