如何 specify/check Dataproc 集群上的分区数

Question

如果我启动一个由 1 台主设备 n1-standard-4 和 4 台工作设备以及 n1-standard-4 组成的 Dataproc 集群，我如何知道默认创建了多少个分区？如果我想确保我有 32 个分区，我在 PySpark 脚本中使用什么语法？我正在从 Google 存储桶读取 .csv 文件。

是不是很简单

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断有多少分区运行（使用 Dataproc 作业输出屏幕？

谢谢

Answer 1

获取RDD中的分区数：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions

重新分区一个RDD：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition

如何 specify/check Dataproc 集群上的分区数

How to specify/check # of partitions on Dataproc cluster

apache-spark

google-cloud-dataproc