Databricks 集群是否需要始终运行以进行 Delta Lake 的 VACUUM 操作?

Does Databricks cluster need to be always up for VACUUM operation of Delta Lake?

我正在为集群使用具有最新运行时的 Azure Databricks。我对 delta lake 中的 VACUUM 操作有些困惑。我们知道我们可以为删除的数据设置保留期限,但是,对于保留期限结束后要删除的实际数据,我们是否需要在整个期限内保持集群运行?

简单来说-:我们是否需要让集群始终处于 运行 状态才能利用 Delta lake?

显然,您需要启动一个集群,并且运行始终查询数据块表中可用的数据。

如果您已经为数据块配置了外部元存储,那么您可以通过将其指向该外部元存储数据库来使用任何包装器,例如 apache hive,并使用配置单元层查询数据,而无需使用数据块。

您不需要始终保持集群启动和 运行宁。您可以将真空作业安排为每天(或每周)运行,以清理早于阈值的陈旧数据。 Delta Lake 不需要永远在线的集群。所有 data/metadata 都存储在存储 (s3/adls/abfs/hdfs) 中,因此无需保留任何内容 运行ning.