Spark writes/reads 如何通过 spark-Cassandra 连接器处理不同于 CQLSH read/write 处理

How Spark writes/reads process through spark-Cassandra connector different from CQLSH read/write process

我是 spark 的新手,想了解 spark 在 Cassandra 集群上通过 spark-Cassandra 连接器使用时有何优势。

  1. 如何通过 spark-Cassandra 连接器向 Cassandra 写入(示例 savetocassandra)(spark SQL 查询,是否还涉及协调器节点?
  2. 如何通过 spark-Cassandra 连接器读取 Cassandra(spark SQL 查询),是否还涉及协调器节点?
  3. 是什么让 spark 在集群上的高范围读取扫描期间克服了 Cassandra 的负载?
  4. 如何通过 spark-Cassandra 连接器在 Cassandra 集群上执行高范围扫描 cql 读取查询?
  5. 在 Cassandra 集群上通过 spark-Cassandra 连接器使用 IN 子句有优势吗?

这里有一个很好的解释。如果您想了解 spark-cassandra-connector 的内部结构,我还推荐其他 Russell 讲座 Cassandra 和 Spark 针对数据局部性进行优化 - Russell Spitzer (DataStax) https://www.youtube.com/watch?v=ikCzILOpYvA