Databricks:dbfs:/ 与 file:/ 之间的区别

Databricks: Difference between dbfs:/ vs file:/

我想了解 Databricks 存储文件的方式,我有点不确定 dbfs:/file:/[ 之间的区别=27=](见下图)

根据我能够从 here 中推断出的内容,file:/ 似乎是通过 curl/wget 下载的外部文件被下载到以下文件夹路径中的区域:

%fs ls "file:/databricks/driver"

但是 file:/ 到底是什么,它为什么存在,它与 dbfs:/ 有何不同?

郑重声明,我使用的是 Databricks 社区免费版。

The Databricks Community Edition is hosted on Amazon Web Services.

当您在 databricks 社区版中创建集群时,后台会在后台创建一个虚拟机(aws ec2 实例),它通过笔记本充当 运行 您的程序的驱动程序节点。

A cluster management service. The service will spin up Amazon EC2 instances VM with Spark nodes already set up for you. Free 15GB memory cluster for the Community Edition and billed hourly per node for the regular version.

%fs ls "file:/" returns 虚拟机 aws ec2 实例中可用的文件夹)在 aws 云的后端 运行ning。

%fs ls returns Databricks 文件系统 (DBFS) 是一个分布式文件系统,安装在 Databricks 工作区中,可在 Databricks 集群上使用。 DBFS 是可扩展对象存储之上的抽象,即 aws S3 存储。