Beam/Dataflow GCS 中的警告和僵尸桶

Beam/Dataflow warning & zombie bucket in GCS

我们有一个使用模板功能的 Beam/Dataflow 管道(在 GCP 上使用 Dataflow SDK 2.0.0-beta3 和 运行ning)。每当我们 运行 它时,它总是发出以下警告:

11:05:30,484 0    [main] INFO  org.apache.beam.sdk.util.DefaultBucket - No staging location provided, attempting to use default bucket: dataflow-staging-us-central1-435085767562
11:05:31,930 1446 [main] WARN  org.apache.beam.sdk.util.RetryHttpRequestInitializer - Request failed with code 409, will NOT retry: https://www.googleapis.com/storage/v1/b?predefinedAcl=projectPrivate&predefinedDefaultObjectAcl=projectPrivate&project=<redacted>"

但是,我们正在设置--stagingLocation参数,我们可以看到所有binaries/jars等都上传到我们在--stagingLocation参数中指定的存储桶中。

然而,Beam/Dataflow 然后在我们项目的 GCS 中创建了以下僵尸桶:dataflow-staging-us-central1-435085767562

如果我们明确设置 --stagingLocation 参数,为什么会发生这种情况?

我怀疑这是BEAM-2143。具体来说,尽管错误提示您需要指定 --stagingLocation,但您实际上需要指定 --tempLocation.