PySpark 中的 countApproxDistinctByKey

countApproxDistinctByKey in PySpark

我正在尝试在 pyspark(1.4 和 1.5)中使用 countApproxDistinctByKey,但找不到它。

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/PairRDDFunctions.scala#L417

我是不是遗漏了什么或者还没有被移植/打包?

谢谢

不,还没有移植。从 1.5 开始,您只能执行 countApproxDistinct

Source code for python RDD