依靠 RDD 给出不同的结果
Count on RDD giving different results
我有一个超过 7500 万行的 RDD,当我在其上调用 count
函数时,我每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。
编辑
只是为了给数据一个概念,结构是这样的
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
分区键:Userid
集群键:Date
ORDER BY DESC
Spark 版本:1.2.2
数据来自 Cassandra
API使用的是Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取 Userid
和 Location
.
我正在使用读取一致性级别 Local_One 并使用 Quorum 一致性解决了这个问题。
潜在的问题是我们的一个节点的突变丢弃计数很高。
我有一个超过 7500 万行的 RDD,当我在其上调用 count
函数时,我每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。
编辑
只是为了给数据一个概念,结构是这样的
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
分区键:Userid
集群键:Date
ORDER BY DESC
Spark 版本:1.2.2
数据来自 Cassandra
API使用的是Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取 Userid
和 Location
.
我正在使用读取一致性级别 Local_One 并使用 Quorum 一致性解决了这个问题。 潜在的问题是我们的一个节点的突变丢弃计数很高。