SparkR 和 sparklyr 导入 parquet 文件的时间差异

Question

我正在使用 SparkR 和 sparklyr 在数据块中导入镶木地板文件。

data1 = SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)

data1 = sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")

导入的时间差异巨大：SparkR 6 秒 vs sparklyr 11 分钟！有没有办法减少 sparklyr 花费的时间？我更熟悉 dplyr 语法，因此也更熟悉 sparklyr。

Answer 1

默认情况下 sparklyr::spark_read_parquet 缓存结果 (memory = TRUE)。

比较以下缓存结果：

SparkR::cache(SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE))

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*")

这是未缓存的：

SparkR::read.df("dbfs:/.../data202007*", source = "parquet", header = TRUE, inferSchema = TRUE)`

sparklyr::spark_read_parquet(sc = sc, path = "dbfs:/.../data202007*", memory = FALSE)

SparkR 和 sparklyr 导入 parquet 文件的时间差异

Difference in time taken for importing parquet files between SparkR and sparklyr

r

parquet

sparkr

databricks

sparklyr