在 AWS 中使用 HDFS 或 S3 的数据湖有什么区别?
What is the difference between a data lake with HDFS or S3 in AWS?
我需要在 AWS 上构建一个数据湖,但我不知道 S3 与 HDFS 到底有何不同。我在网上找到了一些答案,但我仍然不明白真正的区别。
我也想知道有没有人有AWS中HDFS和S3的数据湖架构
HDFS只能被它所在的Hadoop集群访问。如果集群关闭或终止,HDFS中的数据将消失。
Amazon S3 中的数据:
- 随时可用(不能'turned off')
- 可访问多个集群
- 可供其他 AWS 服务访问,例如 Amazon Athena(即 'Presto as a service',因此您甚至可能不需要 Hadoop 集群)
- 具有多重存储类,例如以较低的成本存储less-frequently访问过的数据
- 没有存储限制(而 HDFS 仅限于 Hadoop 集群中可用的存储)
我需要在 AWS 上构建一个数据湖,但我不知道 S3 与 HDFS 到底有何不同。我在网上找到了一些答案,但我仍然不明白真正的区别。
我也想知道有没有人有AWS中HDFS和S3的数据湖架构
HDFS只能被它所在的Hadoop集群访问。如果集群关闭或终止,HDFS中的数据将消失。
Amazon S3 中的数据:
- 随时可用(不能'turned off')
- 可访问多个集群
- 可供其他 AWS 服务访问,例如 Amazon Athena(即 'Presto as a service',因此您甚至可能不需要 Hadoop 集群)
- 具有多重存储类,例如以较低的成本存储less-frequently访问过的数据
- 没有存储限制(而 HDFS 仅限于 Hadoop 集群中可用的存储)