无法使用 DataBricks 保险丝安装路径从 DBFS 访问文件
Unable to access file from DBFS using DataBricks fuse mount path
我在数据块中有文件,如下所示
我正在尝试从数据砖笔记本中像这样访问它们
但我收到错误,即使尝试使用 pandas
也会出错
我不明白我哪里错了。尽管 dbutils.fs.head('/FileStore/tables/flights_small.csv')
正确地给出了我的结果。
您正在使用 DataBricks 社区版,因为 quirk with DBR >= 7.0,您无法从您的路径读取。
我通常只有像下面的新命令这样的命令来解决这个问题,并以编程方式将文件带到可访问的临时文件夹中:
%fs cp /FileStore/tables/flights_small.csv file:/tmp/flights_small.csv
然后简单地阅读:
pd.read_csv('file:/tmp/flights_small.csv')
考虑到社区版中的这种怪癖(集群启动时间长),我通常会 Google Colab 在浏览器笔记本中进行业余爱好工作。
您还可以 运行 pyspark on Google Colab with just
!pip install pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.master("local")\
.appName("Colab")\
.config('spark.ui.port', '4050')\
.getOrCreate()
我在数据块中有文件,如下所示
我正在尝试从数据砖笔记本中像这样访问它们
但我收到错误,即使尝试使用 pandas
也会出错
我不明白我哪里错了。尽管 dbutils.fs.head('/FileStore/tables/flights_small.csv')
正确地给出了我的结果。
您正在使用 DataBricks 社区版,因为 quirk with DBR >= 7.0,您无法从您的路径读取。
我通常只有像下面的新命令这样的命令来解决这个问题,并以编程方式将文件带到可访问的临时文件夹中:
%fs cp /FileStore/tables/flights_small.csv file:/tmp/flights_small.csv
然后简单地阅读:
pd.read_csv('file:/tmp/flights_small.csv')
考虑到社区版中的这种怪癖(集群启动时间长),我通常会 Google Colab 在浏览器笔记本中进行业余爱好工作。
您还可以 运行 pyspark on Google Colab with just
!pip install pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.master("local")\
.appName("Colab")\
.config('spark.ui.port', '4050')\
.getOrCreate()