Azure Databricks 存储或数据湖

Azure Databricks storage or data lake

我正在创建一个结构化流作业,将其数据存储在 databricks delta 数据库中。我面临着将检查点位置和增量数据库中的数据存储在... 1. 正常的 dbfs 位置,如“/delta/mycheckpointlocation”和 "delta/mydatabase" 2. 来自数据湖的挂载目录,如“/mnt/mydatalake/delta/mycheckpointlocation”和“/mnt/mydatalake/delta/mydatabase”

如果我理解正确的话,nr1 中的数据将保存在 blob 存储中,而 nr2 中的数据将存储在数据湖中(假设它安装在 /mnt/mydatalake 上)

决定将检查点位置和增量数据库等内容存储在 1 或 2 中时,有哪些考虑因素?

DBFS 位置是您工作区的一部分。因此,如果您删除工作区,您就会失去它。 该湖是共享的,因此很多东西都可以连接到它,包括其他 Databricks 工作区或其他服务(如 ADF)。 这没有对错之分——纯粹的偏好。