"Delete Databricks Job" 是否立即停止集群上的代码执行?

Does "Delete Databricks Job" stop the code execution on the cluster immediately?

我想知道删除作业是否适用于 Databricks。它会在终止作业集群时立即终止代码执行吗?如果我正在使用微批处理,它是否确保最后一批处理完毕然后终止,或者它只是突然终止而导致数据 loss/data 损坏?我怎样才能避免这种情况?

另外,当我删除 运行 集群上的作业时会发生什么?

它将立即终止 - 不正常。

您使用的是结构化流式处理还是真正的微批处理?如果是前者,那么检查点文件就足以再次从正确的位置开始。 (https://docs.databricks.com/spark/latest/structured-streaming/production.html)

如果您有自己的批处理过程,则需要手动编写一个检查点文件来跟踪您的进度。鉴于缺少交易,我会确保您的管道是幂等的,这样如果您重新启动并重复一个批次,则不会有任何影响。