GCP dataproc 在哪里存储笔记本实例?

Where GCP dataproc stores notebook instances?

我使用 Dataproc 创建了一个 Spark 集群,并附加了 Jupyter Notebook。然后我删除了集群,我假设笔记本都不见了。但是,在创建另一个集群(连接到同一个 Bucket)后,我可以看到我的旧笔记本。这是否意味着笔记本(或它们的检查点)存储在我的存储桶中?或者它们存储在哪里以及如何确保它们被删除?

Dataproc 允许创建分布式计算集群(Hadoop、Map reduce、spark 等)。它仅用于处理(您可以将临时数据保存在内部 HDFS 系统中),但所有输入和输出都在存储桶中完成(Cloud Storage 是 HDFS 的 new/internal Google 版本 -> HDFS 是Google 公开发布的规范的开源实现。此后,Google 内部改进了系统(Cloud Storage),但它仍然与 HDFS 兼容。

因此,是的,您的数据仍在您的 Cloud Storage 存储桶中是正常的。