是否可以在带有 Spark Dataframes 的 Spark 上使用 data.table?

Is it possible to use data.table on SparkR with Sparkdataframes?

情况

我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它真的很快。现在,我正在 azure 集群上开发 sparkR,现在我想知道我是否可以在我的 spark 数据帧上使用 data.table 并且它是否比 sql 快?

这是不可能的。 SparkDataFrames 是 Java 个具有薄 R 接口的对象。虽然在某些有限的情况下(dapplygapply)可以使用 worker side R,但那里 data.table 没有用。