使用 SparkR 创建的数据框和使用 Sparklyr 创建的数据框有什么区别?

What is difference between dataframe created using SparkR and dataframe created using Sparklyr?

我正在读取 Azure databricks 中的镶木地板文件: 使用 SparkR > read.parquet() 使用 Sparklyr > spark_read_parquet() 两个数据帧都不同,有没有办法将 SparkR 数据帧转换为 sparklyr 数据帧,反之亦然?

sparklyr 创建 tbl_spark。这本质上只是一个用 Spark SQL 编写的惰性查询。 SparkR 创建一个 SparkDataFrame,它更像是使用计划组织的数据集合。

以同样的方式,你不能像普通一样使用 tbl data.frame 你不能像使用 SparkDataFrame 一样使用 tbl_spark。

我能想到的将一个转换为另一个的唯一方法是先将其写入您的数据湖/数据仓库或将其读入 r。