使用 PySpark 从 Cloudera CDSW 项目读取文件
Read file from Cloudera CDSW Project with PySpark
我的 Cloudera 项目中有一个文件位于“/home/cdsw/npi.json”下。我已尝试使用以下命令使用 PySpark 从我的 "local" CDSW 项目中读取数据,但无法使用以下任何命令进行读取。他们都抛出 "Path does not exist: " 错误
npi = sc.read.format("json").load("file:///home/cdsw/npi.json")
npi = sc.read.format("json").load("file:/home/cdsw/npi.json")
npi = sc.read.format("json").load("home/cdsw/npi.json")
根据此文档,Accessing Data from HDFS
从终端,从本地文件[复制文件系统到HDFS
。使用 -put
或 -copyFromLocal
.
hdfs dfs -put /home/cdsw/npi.json /destination
其中,/destination
在 HDFS
.
然后,读取PySpark
中的文件。
npi = sc.read.format("json").load("/destination/npi.json")
更多信息:
放
put [-f] [-p] [-l] <localsrc> ... <destination>
Copy files from the local file system into fs. Copying fails if the file already
exists, unless the -f flag is given.
我的 Cloudera 项目中有一个文件位于“/home/cdsw/npi.json”下。我已尝试使用以下命令使用 PySpark 从我的 "local" CDSW 项目中读取数据,但无法使用以下任何命令进行读取。他们都抛出 "Path does not exist: " 错误
npi = sc.read.format("json").load("file:///home/cdsw/npi.json")
npi = sc.read.format("json").load("file:/home/cdsw/npi.json")
npi = sc.read.format("json").load("home/cdsw/npi.json")
根据此文档,Accessing Data from HDFS
从终端,从本地文件[复制文件系统到HDFS
。使用 -put
或 -copyFromLocal
.
hdfs dfs -put /home/cdsw/npi.json /destination
其中,/destination
在 HDFS
.
然后,读取PySpark
中的文件。
npi = sc.read.format("json").load("/destination/npi.json")
更多信息:
放
put [-f] [-p] [-l] <localsrc> ... <destination>
Copy files from the local file system into fs. Copying fails if the file already exists, unless the -f flag is given.