如果我使用 S3 而不是 HDFS,是否仍然需要 Namenode?
Is Namenode still necessary if I use S3 instead of HDFS?
最近我正在使用 S3 在对象存储上设置我的 Hadoop 集群,所有数据文件都存储在 S3 而不是 HDFS 中,并且我成功地 运行 spark 和 MP 在 S3 上,所以我想知道我的名称节点是否仍然是必要的,如果是这样,当我在 S3 上 运行ning hadoop 应用程序时,我的名称节点会做什么?谢谢。
不,只要您有办法处理 S3 缺乏交付工作提交者所需的一致性这一事实。每隔一段时间,如果 S3 的列表足够不一致,您的结果将是无效的 并且您甚至不会注意到。
不同的 Spark on AWS 供应商以他们自己的方式解决这个问题。如果您使用的是 ASF spark,则没有任何捆绑软件可以做到这一点。
最近我正在使用 S3 在对象存储上设置我的 Hadoop 集群,所有数据文件都存储在 S3 而不是 HDFS 中,并且我成功地 运行 spark 和 MP 在 S3 上,所以我想知道我的名称节点是否仍然是必要的,如果是这样,当我在 S3 上 运行ning hadoop 应用程序时,我的名称节点会做什么?谢谢。
不,只要您有办法处理 S3 缺乏交付工作提交者所需的一致性这一事实。每隔一段时间,如果 S3 的列表足够不一致,您的结果将是无效的 并且您甚至不会注意到。
不同的 Spark on AWS 供应商以他们自己的方式解决这个问题。如果您使用的是 ASF spark,则没有任何捆绑软件可以做到这一点。