读取 csv 文件时 MS Databricks Spark 中绝对 URI 中的相对路径

Question

我是 Pyspark 的新手，正在尝试使用 Databricks 中的数据库。

我尝试使用以下语法从本地计算机读取 csv 文件：

df = spark.read.format("csv").option("header", True).load("C:\Users\***\Desktop\MasterFile_v0.csv")

并收到此错误消息：java.net.URISyntaxException: Relative path in absolute URI: C:%5CUsers%5C****.10%5CDesktop%5CMasterFile_v0.csv

只是想知道如何解决这个问题。

此外，我使用 Pandas 读取 csv 但需要安装 xlrd，并且我在 databricks 中使用 %pip install xlrd 但似乎我没有这样做的凭据。

如果有任何建议让我阅读本地文件，那就太好了。谢谢！ C

Answer 1

您无法从 Databricks 访问计算机上的文件 - 它在云中运行，集群无法访问您的本地磁盘。

您需要将文件上传到 Databricks 文件系统。有多种方法可以做到这一点（在 docs 中列出）：

Relative path in absolute URI in MS Databricks Spark when reading csv file