使用 PySpark 从 Cloudera CDSW 项目读取文件

Read file from Cloudera CDSW Project with PySpark

我的 Cloudera 项目中有一个文件位于“/home/cdsw/npi.json”下。我已尝试使用以下命令使用 PySpark 从我的 "local" CDSW 项目中读取数据,但无法使用以下任何命令进行读取。他们都抛出 "Path does not exist: " 错误

npi = sc.read.format("json").load("file:///home/cdsw/npi.json")

npi = sc.read.format("json").load("file:/home/cdsw/npi.json")

npi = sc.read.format("json").load("home/cdsw/npi.json")

根据此文档,Accessing Data from HDFS

从终端,从本地文件[复制文件系统到HDFS。使用 -put-copyFromLocal.

hdfs dfs -put /home/cdsw/npi.json /destination

其中,/destinationHDFS.

然后,读取PySpark中的文件。

npi = sc.read.format("json").load("/destination/npi.json")

更多信息:

put [-f] [-p] [-l] <localsrc> ...  <destination> 

Copy files from the local file system into fs. Copying fails if the file already exists, unless the -f flag is given.