Spark-SQl DataFrame 分区

Spark-SQl DataFrame partitions

我需要使用 spark-sql 加载 Hive table,然后 运行 一些机器学习算法。我写那个:

val dataSet = sqlContext.sql(" select * from table")

效果很好,但是如果我想增加数据集 Dataframe 的分区数,我该怎么做? 使用普通的 RDD,我可以写:

val dataSet = sc.textFile(" .... ", N )

我想要 N 个分区。

谢谢

您可以 coalescerepartition 结果 DataFrame,即:

val dataSet = sqlContext.sql(" select * from table").coalesce(N)