如何按 SparkR 中的行数并行化数据帧？

Question

我需要在将数据委托给 Spark worker 时并行化 SparkR 中的数据帧。

代码片段：

parallelRDD <-SparkR:::parallelize(sc,dataFrame)

在控制台打印如下信息。

context.R: A data frame is parallelized by columns.

每一行对于数据处理都是原子的。我已将结果的数据框转置为数千列。现在每一列对于数据处理都是原子的。但是将单列委托给 spark worker 似乎不是一个好的策略，因为没有明显的性能提升。

是否可以并行化一组行，以便可以在 spark worker 上处理这些数据行？

Answer 1

你只需要这样的东西：

createDataFrame(sqlContext, dataFrame) %>% SparkR:::map(identity)

免责声明：我不鼓励使用内部 API。请务必阅读 SPARK-7230 以了解为什么 RDD API 没有包含在 SparkR 的第一个正式版本中。

how to parallelize the data frame by number of rows in SparkR?