在 AWS 中使用 HDFS 或 S3 的数据湖有什么区别？

What is the difference between a data lake with HDFS or S3 in AWS?

我需要在 AWS 上构建一个数据湖，但我不知道 S3 与 HDFS 到底有何不同。我在网上找到了一些答案，但我仍然不明白真正的区别。

我也想知道有没有人有AWS中HDFS和S3的数据湖架构

HDFS只能被它所在的Hadoop集群访问。如果集群关闭或终止，HDFS中的数据将消失。

Amazon S3 中的数据：

随时可用（不能'turned off'）
可访问多个集群
可供其他 AWS 服务访问，例如 Amazon Athena（即 'Presto as a service'，因此您甚至可能不需要 Hadoop 集群）
具有多重存储类，例如以较低的成本存储less-frequently访问过的数据
没有存储限制（而 HDFS 仅限于 Hadoop 集群中可用的存储）