无法使用 DataBricks 保险丝安装路径从 DBFS 访问文件

Unable to access file from DBFS using DataBricks fuse mount path

我在数据块中有文件,如下所示

我正在尝试从数据砖笔记本中像这样访问它们

但我收到错误,即使尝试使用 pandas 也会出错

我不明白我哪里错了。尽管 dbutils.fs.head('/FileStore/tables/flights_small.csv') 正确地给出了我的结果。

您正在使用 DataBricks 社区版,因为 quirk with DBR >= 7.0,您无法从您的路径读取。

我通常只有像下面的新命令这样的命令来解决这个问题,并以编程方式将文件带到可访问的临时文件夹中:

%fs cp /FileStore/tables/flights_small.csv file:/tmp/flights_small.csv

然后简单地阅读:

pd.read_csv('file:/tmp/flights_small.csv')

考虑到社区版中的这种怪癖(集群启动时间长),我通常会 Google Colab 在浏览器笔记本中进行业余爱好工作。

您还可以 运行 pyspark on Google Colab with just

!pip install pyspark

from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local")\
        .appName("Colab")\
        .config('spark.ui.port', '4050')\
        .getOrCreate()