是否可以从多个 Hadoop 集群访问 AWS EFS

Does AWS EFS can be accessed from multiple Hadoop clusters

我可以理解EFS可以挂载到多个EC2实例。

是否可以从多个 Hadoop 集群连接到 AWS EFS?

或者它是否附加到特定集群?

我们可以使用 API 连接到 Hadoop 集群外部的 EFS 吗?

您正在为 Hadoop 集群使用 Cloudera 发行版,因此您可以根据需要进行配置。

作为比较,Amazon EMR(AWS 管理的 Hadoop 服务)的用户通常从两种存储类型中进行选择:

  • 实例存储:这是directly-attached磁盘存储,所以速度很快。某些实例类型(例如 m3、d2)提供大型 magnetic-disk 存储,这对于 HDFS 来说非常好。其他实例类型提供非常快的 SSD 存储,但通常较小。请注意,当 EMR 集群终止时,Instance Store 的内容会丢失。
  • EBS 卷: 这些 network-attached 磁盘提供更大的存储空间(每个卷高达 16TB)。同样,当 EMR 集群终止时,内容会丢失。 EBS卷和实例存储也可以一起使用。

对于 EMR(同样,不是您的情况),用户将输入和输出数据作为持久数据存储保存在 Amazon S3 中。这样,集群终止时数据不会丢失。好处是集群可以在不使用时关闭(因此可以节省资金),并且在需要更多处理能力时可以 spun-up 添加集群。这在传统的 on-premises 设置中是不可能的,在该设置中,集群永久保持打开状态,无法放大或缩小。

那么,回到您的 Cloudera 集群...您可能会使用 HDFS 作为您的存储,在这种情况下您需要附加磁盘存储。您还可以选择使用 S3 存储数据,这比磁盘存储更便宜。

是的,您可以通过 NTFS 附加 Amazon EFS 卷,但 EFS 通常用于在 EC2 实例之间共享磁盘,这不是 HDFS 的操作方式(它假定 locally-attached 个磁盘,分布式共享发生在 NodeManager 级别)。

由于扩展、瞬态集群、自动部署和定期升级的好处,我建议调查您是否可以使用 Amazon EMR 而不是部署自己的 Hadoop 集群。如果您一定要使用Cloudera,您将负责自己管理和维护集群。