为什么不将数据留在 HDFS 中,
Why to not leave data in HDFS,
前一天我在coursera上GCP课程的时候,他们提到并坚持说我们不要把数据留在HDFS中,而是做完之后,我们应该复制它并持久化到云存储中,每次我们要启动一个作业,我们应该把数据重新放在 HDFS 中并重复循环,
所以我的问题如下:
- 如果我们关闭 hadoop 集群,我们会丢失 HDFS 中的数据吗?
- 为什么我们不应该将数据留在 HDFS 中?
- 价格问题?
谢谢
The pros and cons of Cloud Storage vs. HDFS
迁移到云存储
1.缺点:
一个。 Cloud Storage 可能会增加 I/O 方差。
b。 Cloud Storage 不支持文件追加或截断。
c。云存储不 POSIX 合规。
d. Cloud Storage 可能不会公开所有文件系统信息。
e。云存储可能有更长的请求延迟。
2。优点:
一个。降低成本。
b。与计算和存储分离。
c。互操作性。
d.具有同等(或更好)性能的 HDFS 兼容性。
e。高数据可用性。
f。没有存储管理开销。
克。快速启动。
小时。 Google IAM 安全。
我。全局一致性。
前一天我在coursera上GCP课程的时候,他们提到并坚持说我们不要把数据留在HDFS中,而是做完之后,我们应该复制它并持久化到云存储中,每次我们要启动一个作业,我们应该把数据重新放在 HDFS 中并重复循环, 所以我的问题如下:
- 如果我们关闭 hadoop 集群,我们会丢失 HDFS 中的数据吗?
- 为什么我们不应该将数据留在 HDFS 中?
- 价格问题?
谢谢
The pros and cons of Cloud Storage vs. HDFS
迁移到云存储
1.缺点:
一个。 Cloud Storage 可能会增加 I/O 方差。
b。 Cloud Storage 不支持文件追加或截断。
c。云存储不 POSIX 合规。
d. Cloud Storage 可能不会公开所有文件系统信息。
e。云存储可能有更长的请求延迟。
2。优点:
一个。降低成本。
b。与计算和存储分离。
c。互操作性。
d.具有同等(或更好)性能的 HDFS 兼容性。
e。高数据可用性。
f。没有存储管理开销。
克。快速启动。
小时。 Google IAM 安全。
我。全局一致性。