Spark-SQl DataFrame 分区

Question

我需要使用 spark-sql 加载 Hive table，然后运行一些机器学习算法。我写那个：

val dataSet = sqlContext.sql(" select * from table")

效果很好，但是如果我想增加数据集 Dataframe 的分区数，我该怎么做？使用普通的 RDD，我可以写：

val dataSet = sc.textFile(" .... ", N )

我想要 N 个分区。

谢谢

Answer 1

您可以 coalesce 或 repartition 结果 DataFrame，即：

val dataSet = sqlContext.sql(" select * from table").coalesce(N)

Spark-SQl DataFrame partitions