databricks 从 s3 存储桶路径参数加载文件

Question

我是 databricks 或 spark 的新手，正在从 databricks 学习这个演示。我在 AWS 上设置了一个数据块工作区。下面的代码来自官方demo，运行正常。但是这个 csv 文件在哪里？我想检查文件并了解路径参数的工作原理。

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds
USING csv
OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", 
         header "true")

我已经检查了 S3 存储桶上的 databrikcs 位置，但没有找到该文件：

Answer 1

/databricks-datasets 是一个特殊的 mount location that is owned by Databricks and available out of box in all workspaces. You can't browse it via S3 browser, but you can use display(dbutils.fs.ls("/databricks-datasets")), or %fs ls /databricks-datasets, or DBFS File browser (in "Data" tab) to explore its content - see a separate page about it.

databricks 从 s3 存储桶路径参数加载文件

databricks load file from s3 bucket path parameter

databricks

aws-databricks