Spark 如何加速批量加载到 JanusGraph?
How Spark can speed up bulk loading to JanusGraph?
我需要使用 Cassandra 后端从其他存储将大量顶点和边加载到 JanusGraph。我读过有关批量加载和 Spark 配置的信息 (https://docs.janusgraph.org/advanced-topics/bulk-loading/ and https://docs.janusgraph.org/advanced-topics/hadoop/)。
很清楚如何为 Spark 使用配置 JanusGraph,但我仍然不确定如何使用 Spark,以及 Spark 是否有助于加快插入图形的速度。
请给出一些使用 Hadoop MapReduce 或 Spark 来加速向 Janusgraph 批量加载数据的用例和代码示例(首选 Java 或 Python)。欢迎任何帮助!
我最近在 POC 项目上工作,使用 Apache Spark 将数据批量加载到 JanusGraph 中。我们在使用 Spark 加载数据时获得了很好的性能。下面的文章中提供了设置和示例代码。
https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-ace7d146af05
https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-part-2-ca946db26582
或者,您可以编写 Kafka 消费者应用程序以将数据从 Kafka 加载到 JanusGraph。并行度将限制为您的应用程序从中读取数据的 source/input 主题的分区数。该应用程序将是 single-threaded,但您可以将您的应用程序扩展到输入主题的数量。您的应用程序的每个实例都可以打开连接并使用事务写入 JanusGraph。您可以批量处理具有一定批量大小的事务以分散负载。
我需要使用 Cassandra 后端从其他存储将大量顶点和边加载到 JanusGraph。我读过有关批量加载和 Spark 配置的信息 (https://docs.janusgraph.org/advanced-topics/bulk-loading/ and https://docs.janusgraph.org/advanced-topics/hadoop/)。
很清楚如何为 Spark 使用配置 JanusGraph,但我仍然不确定如何使用 Spark,以及 Spark 是否有助于加快插入图形的速度。
请给出一些使用 Hadoop MapReduce 或 Spark 来加速向 Janusgraph 批量加载数据的用例和代码示例(首选 Java 或 Python)。欢迎任何帮助!
我最近在 POC 项目上工作,使用 Apache Spark 将数据批量加载到 JanusGraph 中。我们在使用 Spark 加载数据时获得了很好的性能。下面的文章中提供了设置和示例代码。
https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-ace7d146af05
https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-part-2-ca946db26582
或者,您可以编写 Kafka 消费者应用程序以将数据从 Kafka 加载到 JanusGraph。并行度将限制为您的应用程序从中读取数据的 source/input 主题的分区数。该应用程序将是 single-threaded,但您可以将您的应用程序扩展到输入主题的数量。您的应用程序的每个实例都可以打开连接并使用事务写入 JanusGraph。您可以批量处理具有一定批量大小的事务以分散负载。