Tensorflow 是否在训练或使用 Tensorboard 期间连续轮询 S3 文件系统?

Is Tensorflow continuously polling a S3 filesystem during training or using Tensorboard?

我正在尝试在本地计算机上使用 tensorboard 来读取 S3 上的 tensorflow 日志。一切正常,但 tensorboard 不断向控制台抛出以下错误。根据 this 的原因是,当 Tensorflow s3 客户端检查目录是否存在时,它首先 运行 统计它,因为 s3 无法检查目录是否存在。然后它检查是否存在具有此类名称的密钥并失败并显示此类错误消息。

虽然这可能是模型服务查找更新模型所需的行为,并且可以使用 file_system_poll_wait_second 停止,但我不知道如何停止训练。事实上,如果您在 S3 中保存检查点和日志,训练期间也会发生同样的情况。 抑制这些错误并提高日志级别并不是 option,因为 Tensorflow 仍然不断地轮询 S3 并且您为这些无用的请求付费。

I tensorflow/core/platform/s3/aws_logging.cc:54] Connection has been released. Continuing.
2020-11-23 11:41:02.502274: E tensorflow/core/platform/s3/aws_logging.cc:60] HTTP response code: 404
Exception name: 
Error message: No response body.
6 response headers:
connection : close
content-type : application/xml
date : Mon, 23 Nov 2020 10:41:01 GMT
server : AmazonS3
x-amz-id-2 : ...
x-amz-request-id : ...
2020-11-23 11:41:02.502364: W tensorflow/core/platform/s3/aws_logging.cc:57] If the signature check failed. This could be because of a time skew. Attempting to adjust the signer.
2020-11-23 11:41:02.502699: I tensorflow/core/platform/s3/aws_logging.cc:54] Connection has been released. Continuing.
2020-11-23 11:41:03.327409: I tensorflow/core/platform/s3/aws_logging.cc:54] Connection has been released. Continuing.
2020-11-23 11:41:03.491773: E tensorflow/core/platform/s3/aws_logging.cc:60] HTTP response code: 404

有什么想法吗?

我错了。 TF 只是将日志写入 S3,而错误与链接问题有关,这是正常行为。额外费用很少,因为 AWS 不会就同一地区服务之间的数据传输向您收费,而只会对操作收费。这同样适用于将 tensorboard 与 S3 一起使用。对于任何对这些主题感兴趣的人,我创建了一个存储库 here