是否可以在带有 Spark Dataframes 的 Spark 上使用 data.table?
Is it possible to use data.table on SparkR with Sparkdataframes?
情况
我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它真的很快。现在,我正在 azure 集群上开发 sparkR,现在我想知道我是否可以在我的 spark 数据帧上使用 data.table 并且它是否比 sql 快?
这是不可能的。 SparkDataFrames
是 Java 个具有薄 R 接口的对象。虽然在某些有限的情况下(dapply
、gapply
)可以使用 worker side R,但那里 data.table
没有用。
情况
我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它真的很快。现在,我正在 azure 集群上开发 sparkR,现在我想知道我是否可以在我的 spark 数据帧上使用 data.table 并且它是否比 sql 快?
这是不可能的。 SparkDataFrames
是 Java 个具有薄 R 接口的对象。虽然在某些有限的情况下(dapply
、gapply
)可以使用 worker side R,但那里 data.table
没有用。