为什么 spark 在内部使用批量写入 Cassandra
why spark internally uses batch writes to Cassandra
我是 spark 的新手,我想了解为什么 spark 会分批写入 Cassandra(例如:savetocassandra 操作),而批处理对于所有用例都不是那么有效。当我们进行从 cassandra 读取并写回 cassandra 的 spark 作业时,除了优化 spark.cassandra 属性之外,应该从 cassandra 端或 spark 端真正注意什么。
是记录批量写入还是未记录批量写入?
这不是特定于 Spark 到 Cassandra 的,而是任何写入服务的进程
- Spark 通过 API 而不是文件
写入 cassandra
- 批处理总是加快放置速度,因为在一个 API 中调用您批处理多行放置。
- 批处理导致难以处理一个语义。
- 您始终可以编写自己的 Spark 任务来一次完成一个任务。
- 我认为应该可以配置单个 vs 批处理
下面是最好的解释:
最大超速:调整 Spark Cassandra 连接器(Russell Spitzer,DataStax)| C* 峰会 2016
https://www.youtube.com/watch?v=cKIHRD6kUOc
我是 spark 的新手,我想了解为什么 spark 会分批写入 Cassandra(例如:savetocassandra 操作),而批处理对于所有用例都不是那么有效。当我们进行从 cassandra 读取并写回 cassandra 的 spark 作业时,除了优化 spark.cassandra 属性之外,应该从 cassandra 端或 spark 端真正注意什么。
是记录批量写入还是未记录批量写入?
这不是特定于 Spark 到 Cassandra 的,而是任何写入服务的进程
- Spark 通过 API 而不是文件 写入 cassandra
- 批处理总是加快放置速度,因为在一个 API 中调用您批处理多行放置。
- 批处理导致难以处理一个语义。
- 您始终可以编写自己的 Spark 任务来一次完成一个任务。
- 我认为应该可以配置单个 vs 批处理
下面是最好的解释: 最大超速:调整 Spark Cassandra 连接器(Russell Spitzer,DataStax)| C* 峰会 2016 https://www.youtube.com/watch?v=cKIHRD6kUOc