Databricks 中的花镶木地板数据集在哪里

Question

我试过运行第一行

df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
  .select(col("content"), col("label_index")) \
  .limit(1000)

但是我得到了这个错误


 Path does not exist: dbfs:/databricks-datasets/flowers/parquet;

我想知道在 databricks 上哪里可以找到 flowers 数据集的 parquet 版本。仅供参考，我正在开发社区版。

Answer 1

此数据集已转换为Delta格式，所以现在的路径是/databricks-datasets/flowers/delta，而不是/databricks-datasets/flowers/parquet，需要用相应的代码读取：

df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')

P.S。您始终可以使用 %fs ls path 命令查看给定路径

中的文件

P.P.S。如果可能的话，我会要求修好那个笔记本

Where is flowers parquet dataset in Databricks