如何 specify/check Dataproc 集群上的分区数
How to specify/check # of partitions on Dataproc cluster
如果我启动一个由 1 台主设备 n1-standard-4 和 4 台工作设备以及 n1-standard-4 组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶读取 .csv 文件。
是不是很简单
myRDD = sc.textFile("gs://PathToFile", 32)
如何判断有多少分区 运行(使用 Dataproc 作业输出屏幕?
谢谢
如果我启动一个由 1 台主设备 n1-standard-4 和 4 台工作设备以及 n1-standard-4 组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶读取 .csv 文件。
是不是很简单
myRDD = sc.textFile("gs://PathToFile", 32)
如何判断有多少分区 运行(使用 Dataproc 作业输出屏幕?
谢谢