我们可以在 kubernetes 环境中使用 spark-cassandra-connector 的 repartitionByCassandraReplica 功能吗?

Can we use repartitionByCassandraReplica functionality of spark-cassandra-connector in kubernetes environment?

我想了解如何在 Kubernetes 环境中使用 spark-cassandra-connector 的 repartitionByCassandraReplica 功能?

我最初的想法是在 Cassandra pod 运行 所在的同一主机上托管执行程序将解决我的问题。我的想法对吗?

如果 Spark worker/executor 和 Cassandra JVM 运行 在同一 OSI 中,则只能通过 repartitionByCassandraReplica 实现数据局部性。这适用于物理服务器、虚拟机、容器、pods 等

除非您有办法 运行 在同一个 container/pod 中同时使用 Spark 和 Cassandra 映像,否则无法实现数据局部性。

对于它的价值,有一个开放的 spark-cassandra-connector ticket 来研究如何实现它 (SPARKC-655)。它现在只是一个存根,还没有完成任何工作。干杯!