如何从卡桑德拉中非常大的 table 中读取所有行?
how to read all row from very huge table in cassandra?
我有一个 Cassandra 集群,在同一个数据中心有两个节点和 replica_factor=2。 Table 大约 1.5 亿,并且还在不断增加,我需要每天读取一次进程并更新 Cassandra 中的相应行。
有更好的方法吗?
有什么方法可以将并行块中的所有行划分为某个线程处理每个块?
卡桑德拉版本:2.2.1
java版本:openjdk 1.7
你应该看看 Spark。使用 Spark Cassandra Connector 允许您从多个 Spark 节点读取来自 Cassandra 的数据,这些节点可以额外部署在 Cassandra 节点上或单独的集群中。数据由 运行 Spark 作业并行读取、处理和写回,也可以安排每日执行。
随着您的数据量不断增长,研究 Spark Streaming 可能也很有意义,让您能够根据传入的新数据不断处理和更新数据。这会阻止一遍又一遍地重新处理相同的数据,但这当然取决于您的用例,如果这是您的选择。
我有一个 Cassandra 集群,在同一个数据中心有两个节点和 replica_factor=2。 Table 大约 1.5 亿,并且还在不断增加,我需要每天读取一次进程并更新 Cassandra 中的相应行。
有更好的方法吗?
有什么方法可以将并行块中的所有行划分为某个线程处理每个块?
卡桑德拉版本:2.2.1
java版本:openjdk 1.7
你应该看看 Spark。使用 Spark Cassandra Connector 允许您从多个 Spark 节点读取来自 Cassandra 的数据,这些节点可以额外部署在 Cassandra 节点上或单独的集群中。数据由 运行 Spark 作业并行读取、处理和写回,也可以安排每日执行。
随着您的数据量不断增长,研究 Spark Streaming 可能也很有意义,让您能够根据传入的新数据不断处理和更新数据。这会阻止一遍又一遍地重新处理相同的数据,但这当然取决于您的用例,如果这是您的选择。