为什么不将数据留在 HDFS 中,

Why to not leave data in HDFS,

前一天我在coursera上GCP课程的时候,他们提到并坚持说我们不要把数据留在HDFS中,而是做完之后,我们应该复制它并持久化到云存储中,每次我们要启动一个作业,我们应该把数据重新放在 HDFS 中并重复循环, 所以我的问题如下:

  1. 如果我们关闭 hadoop 集群,我们会丢失 HDFS 中的数据吗?
  2. 为什么我们不应该将数据留在 HDFS 中?
  3. 价格问题?

谢谢

The pros and cons of Cloud Storage vs. HDFS

迁移到云存储

1.缺点:

一个。 Cloud Storage 可能会增加 I/O 方差。

b。 Cloud Storage 不支持文件追加或截断。

c。云存储不 POSIX 合规。

d. Cloud Storage 可能不会公开所有文件系统信息。

e。云存储可能有更长的请求延迟。

2。优点:

一个。降低成本。

b。与计算和存储分离。

c。互操作性。

d.具有同等(或更好)性能的 HDFS 兼容性。

e。高数据可用性。

f。没有存储管理开销。

克。快速启动。

小时。 Google IAM 安全。

我。全局一致性。