为什么 spark 在内部使用批量写入 Cassandra

why spark internally uses batch writes to Cassandra

我是 spark 的新手,我想了解为什么 spark 会分批写入 Cassandra(例如:savetocassandra 操作),而批处理对于所有用例都不是那么有效。当我们进行从 cassandra 读取并写回 cassandra 的 spark 作业时,除了优化 spark.cassandra 属性之外,应该从 cassandra 端或 spark 端真正注意什么。

是记录批量写入还是未记录批量写入?

这不是特定于 Spark 到 Cassandra 的,而是任何写入服务的进程

  1. Spark 通过 API 而不是文件
  2. 写入 cassandra
  3. 批处理总是加快放置速度,因为在一个 API 中调用您批处理多行放置。
  4. 批处理导致难以处理一个语义。
  5. 您始终可以编写自己的 Spark 任务来一次完成一个任务。
  6. 我认为应该可以配置单个 vs 批处理

下面是最好的解释: 最大超速:调整 Spark Cassandra 连接器(Russell Spitzer,DataStax)| C* 峰会 2016 https://www.youtube.com/watch?v=cKIHRD6kUOc