如何使用通配符访问 SparkR 中的多个文件

How to access multiple files in SparkR using wildcards

我有多个文件位于嵌套文件夹中,例如:

/bucket/folder1/foloder2/folder3/data.csv

我想访问位于文件夹 2 中的所有 data.json 文件,我可以使用以下代码使用 scala 执行相同的操作:

sc.textFile("/bucket/folder1/*/folder3/data.json")

如何使用 SparkR 实现同样的效果?

尝试使用 sparkR:::textFile

my_rdd<-SparkR:::textFile(sc,"/bucket/folder1/*/folder3/data.json")

但出现以下错误-

16/09/14 16:02:48 错误 RBackendHandler:1 上的 defaultParallelism 失败 invokeJava(isStatic = FALSE, objId$id, methodName, ...) 错误:

Spark 2.0 中:

df <- read.json("/bucket/folder1/*/folder3/data.json")

请注意,所有内容都将加载到 SparkDataFrame 中,并且需要先创建一个 SparkR 会话:sparkR.session()

Spark 1.6.2 中:

df <- read.json(sqlContext, "/bucket/folder1/*/folder3/data.json")

注意需要先创建一个sqlContext:sqlContext <- sparkRSQL.init(sc).