如何从 sparklyr 读取 spark_read_json 目录中的所有文件
How to read all files in a directory with spark_read_json from sparklyr
我在本地存储了 json 个事件(用于调试),结构如下:events/year/month/day/hour/somefiles.log
。每个 file.log
都是文件,每一行都有一个 json 对象(我的事件)。
我如何使用包 sparklyr 中的 spark_read_json
递归加载这些文件。
我试过了:
library(sparklyr)
sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")
但没有成功。
编辑 1
事实上,它在路径中的某个级别起作用,例如
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")
有效但
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"
无效
您可能需要使用多个通配符指定路径搜索的深度。尝试:
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*/*")
我在本地存储了 json 个事件(用于调试),结构如下:events/year/month/day/hour/somefiles.log
。每个 file.log
都是文件,每一行都有一个 json 对象(我的事件)。
我如何使用包 sparklyr 中的 spark_read_json
递归加载这些文件。
我试过了:
library(sparklyr)
sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")
但没有成功。
编辑 1
事实上,它在路径中的某个级别起作用,例如
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")
有效但
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"
无效
您可能需要使用多个通配符指定路径搜索的深度。尝试:
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*/*")