将多个文件加载到数据框中
Load multiple files into dataframe
是否可以将多个文件作为一个数据帧加载?通常,如果我要加载一个文件,我会调用例如:
file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)
但是我想加载文件夹/a/b/c/folder/*.csv
下的所有文件。
我认为 sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)
可行。之前报错是因为我准备好了压缩文件,和内存相比太大了
是否可以将多个文件作为一个数据帧加载?通常,如果我要加载一个文件,我会调用例如:
file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)
但是我想加载文件夹/a/b/c/folder/*.csv
下的所有文件。
我认为 sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)
可行。之前报错是因为我准备好了压缩文件,和内存相比太大了