Databricks 中的花镶木地板数据集在哪里
Where is flowers parquet dataset in Databricks
我正在处理这个笔记本。 https://databricks.com/notebooks/simple-aws/petastorm-spark-converter-pytorch.html
我试过运行第一行
df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
.select(col("content"), col("label_index")) \
.limit(1000)
但是我得到了这个错误
Path does not exist: dbfs:/databricks-datasets/flowers/parquet;
我想知道在 databricks 上哪里可以找到 flowers 数据集的 parquet 版本。仅供参考,我正在开发社区版。
此数据集已转换为Delta格式,所以现在的路径是/databricks-datasets/flowers/delta
,而不是/databricks-datasets/flowers/parquet
,需要用相应的代码读取:
df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')
P.S。您始终可以使用 %fs ls path
命令查看给定路径
中的文件
P.P.S。如果可能的话,我会要求修好那个笔记本
我正在处理这个笔记本。 https://databricks.com/notebooks/simple-aws/petastorm-spark-converter-pytorch.html
我试过运行第一行
df = spark.read.parquet("/databricks-datasets/flowers/parquet") \
.select(col("content"), col("label_index")) \
.limit(1000)
但是我得到了这个错误
Path does not exist: dbfs:/databricks-datasets/flowers/parquet;
我想知道在 databricks 上哪里可以找到 flowers 数据集的 parquet 版本。仅供参考,我正在开发社区版。
此数据集已转换为Delta格式,所以现在的路径是/databricks-datasets/flowers/delta
,而不是/databricks-datasets/flowers/parquet
,需要用相应的代码读取:
df = spark.read.format('delta').load('/databricks-datasets/flowers/delta')
P.S。您始终可以使用 %fs ls path
命令查看给定路径
P.P.S。如果可能的话,我会要求修好那个笔记本