Spark Cassandra Connector 能否在 K8S 环境中解析来自无头服务的主机名？

Question

Datastax Spark Cassandra Connector 使用“spark.cassandra.connection.host”连接到 cassandra 集群。

我们能否在K8S环境作为主机提供C*集群的headless服务给这个参数("spark.cassandra.connection.host")。
会解决接触点问题吗？
使用 Spark Cassandra Connector 在 K8s 环境中连接 C* 集群的首选方式是什么？

Answer 1

是的，为什么不呢。有一个good example on the Kubernetes official documentation. You create a headless service with a selector:

apiVersion: v1
kind: Service
metadata:
  labels:
    app: cassandra
  name: cassandra
spec:
  clusterIP: None
  ports:
  - port: 9042
  selector:
    app: cassandra

基本上当您指定 spark.cassandra.connection.host=cassandra（在同一个 K8s 命名空间中，否则，您必须提供 Cassandra..svc.cluster.local` 它将解析到 Cassandra 联系点（Pod IP 地址卡桑德拉在哪里运行)

✌️

Answer 2

默认情况下，SCC 在第一次连接时将所有提供的联系点解析为 IP 地址，然后仅使用这些 IP 地址进行重新连接。在初始连接发生后，它会发现集群的其余部分。通常这不是问题，因为 SCC 应该收到有关节点启动和关闭的通知并跟踪节点 IP 地址。但在实践中，可能会发生节点重启速度过快而未收到通知的情况，因此使用 SCC 的 Spark 作业可能会在尝试连接到不再有效的 IP 地址时卡住——我在 DC/OS.

此问题已通过 release of SCC 2.5.0 that includes a fix for SPARKC-571 解决。它引入了一个新的配置参数 - spark.cassandra.connection.resolveContactPoints，当它设置为 false（默认情况下为 true）时，将始终使用联系点的主机名进行初始连接和重新连接，从而避免了以下问题更改了 IP 地址。

所以在 K8S 上，我会尝试在正常的 Cassandra 部署中使用这个配置参数。

Spark Cassandra Connector 能否在 K8S 环境中解析来自无头服务的主机名？

Can Spark Cassandra Connector resolve hostnanmes from headless service in K8S environment?

cassandra

datastax

kubernetes

spark-cassandra-connector