Spark-SQl DataFrame 分区
Spark-SQl DataFrame partitions
我需要使用 spark-sql 加载 Hive table,然后 运行 一些机器学习算法。我写那个:
val dataSet = sqlContext.sql(" select * from table")
效果很好,但是如果我想增加数据集 Dataframe 的分区数,我该怎么做?
使用普通的 RDD,我可以写:
val dataSet = sc.textFile(" .... ", N )
我想要 N 个分区。
谢谢
您可以 coalesce
或 repartition
结果 DataFrame
,即:
val dataSet = sqlContext.sql(" select * from table").coalesce(N)
我需要使用 spark-sql 加载 Hive table,然后 运行 一些机器学习算法。我写那个:
val dataSet = sqlContext.sql(" select * from table")
效果很好,但是如果我想增加数据集 Dataframe 的分区数,我该怎么做? 使用普通的 RDD,我可以写:
val dataSet = sc.textFile(" .... ", N )
我想要 N 个分区。
谢谢
您可以 coalesce
或 repartition
结果 DataFrame
,即:
val dataSet = sqlContext.sql(" select * from table").coalesce(N)