在 AWS 中使用 HDFS 或 S3 的数据湖有什么区别?

What is the difference between a data lake with HDFS or S3 in AWS?

我需要在 AWS 上构建一个数据湖,但我不知道 S3 与 HDFS 到底有何不同。我在网上找到了一些答案,但我仍然不明白真正的区别。

我也想知道有没有人有AWS中HDFS和S3的数据湖架构

HDFS只能被它所在的Hadoop集群访问。如果集群关闭或终止,HDFS中的数据将消失。

Amazon S3 中的数据:

  • 随时可用(不能'turned off')
  • 可访问多个集群
  • 可供其他 AWS 服务访问,例如 Amazon Athena(即 'Presto as a service',因此您甚至可能不需要 Hadoop 集群)
  • 具有多重存储类,例如以较低的成本存储less-frequently访问过的数据
  • 没有存储限制(而 HDFS 仅限于 Hadoop 集群中可用的存储)