在 Cassandra 中使用 Spark 插入数据

Insert Data using Spark in Cassandra

我正在使用 spark 和 datastax spark 连接器在 Cassandra 中写入 12 亿行数据(两列)。我有两个 DC 设置,我将用 local_quorum 编写。我在两个 DC 中都有 3 个复制。是否会因其他 DC 而引入延迟。插入数据时我还应该记住哪些其他事项。我已经在单DC上测试过,结果令人满意。

无论如何写入都会被发送到其他 DC,但是因为您正在使用 LOCAL_QUORUM,Spark 不会等待来自该 DC 中的节点的确认,所以它应该不会影响延迟。我唯一要监控的是 - 如果另一个 DC 很远,and/or 有一个缓慢的 link,那么发生写入的节点可能会开始收集提示,如果发生这种情况,那么这可能稍微影响性能,因为需要编写提示,然后在远程节点返回后重播。