Databricks 中的花镶木地板数据集在哪里

Where is flowers parquet dataset in Databricks

我正在处理这个笔记本。 https://databricks.com/notebooks/simple-aws/petastorm-spark-converter-pytorch.html

我试过运行第一行

df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
  .select(col("content"), col("label_index")) \
  .limit(1000)

但是我得到了这个错误


 Path does not exist: dbfs:/databricks-datasets/flowers/parquet;

我想知道在 databricks 上哪里可以找到 flowers 数据集的 parquet 版本。仅供参考,我正在开发社区版。

此数据集已转换为Delta格式,所以现在的路径是/databricks-datasets/flowers/delta,而不是/databricks-datasets/flowers/parquet,需要用相应的代码读取:

df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')

P.S。您始终可以使用 %fs ls path 命令查看给定路径

中的文件

P.P.S。如果可能的话,我会要求修好那个笔记本