在 pyspark RDD 上显示分区
Show partitions on a pyspark RDD
pyspark RDD 文档
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
没有显示任何显示 RDD 分区信息的方法。
有没有办法在不执行额外步骤的情况下获取该信息,例如:
myrdd.mapPartitions(lambda x: iter[1]).sum()
以上确实有效..但似乎需要额外的努力。
我错过了:很简单:
rdd.getNumPartitions()
不习惯 java-ish getFooMethod() 了 ;)
更新:添加来自@dnlbrky 的评论:
dataFrame.rdd.getNumPartitions()
OP 没有指定他想为分区获取哪些信息(但似乎对分区的数量很满意)。
如果它是您要查找的每个分区中的元素数量(就像这里的情况一样),则以下解决方案可以正常工作:
https://gist.github.com/venuktan/bd3a6b6b83bd6bc39c9ce5810607a798
pyspark RDD 文档
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
没有显示任何显示 RDD 分区信息的方法。
有没有办法在不执行额外步骤的情况下获取该信息,例如:
myrdd.mapPartitions(lambda x: iter[1]).sum()
以上确实有效..但似乎需要额外的努力。
我错过了:很简单:
rdd.getNumPartitions()
不习惯 java-ish getFooMethod() 了 ;)
更新:添加来自@dnlbrky 的评论:
dataFrame.rdd.getNumPartitions()
OP 没有指定他想为分区获取哪些信息(但似乎对分区的数量很满意)。
如果它是您要查找的每个分区中的元素数量(就像这里的情况一样),则以下解决方案可以正常工作: https://gist.github.com/venuktan/bd3a6b6b83bd6bc39c9ce5810607a798