如何 specify/check Dataproc 集群上的分区数

How to specify/check # of partitions on Dataproc cluster

如果我启动一个由 1 台主设备 n1-standard-4 和 4 台工作设备以及 n1-standard-4 组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶读取 .csv 文件。

是不是很简单

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断有多少分区 运行(使用 Dataproc 作业输出屏幕?

谢谢

获取RDD中的分区数:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions

重新分区一个RDD:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition