Alluxio with/without HDFS

Alluxio with/without HDFS

我有一个集群,HDFS 作为底层存储分布式文件系统,但我刚刚读到有关 alluxio 的信息,它既快速又灵活。所以,我的问题是:我应该将 Alluxio 与 HDFS 一起使用,还是 Alluxio 是 HDFS 的替代品? (我在他们的网站上看到底层存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为HDFS不是必需的。如果我说错了请指正)。

哪种模式性能更好:HDFS with Alluxio or Alluxio stanalone(我的意思是standalone这个词是在集群中单独使用,而不是在本地使用)。

A​​lluxio 维护者回复

首先,Alluxio 不是 HDFS 的替代品。相反,它是其他 distributed/cloud 存储系统之上的新抽象层,包括 HDFS、S3、Azure 对象存储和其他可能的选择。在您的情况下,如果您的数据已经在 HDFS 中,您可能仍会保留 HDFS 作为 Alluxio 的持久数据层。

用户使用 Alluxio 并看到显着优势的典型场景包括:

  • 您的物理数据不在您的计算机中。例如,您的大数据引擎正在从 S3 或其他对象存储中读取数据。在这种情况下,通过部署带有计算节点的 Alluxio,可以使 Alluxio 用作文件系统级缓存,以避免重复跨网络获取数据。参见 http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储并希望公开单个数据访问层以简化管理。例如,可以 "mount" 多个 S3/ buckets 到一个 Alluxio 部署中,因此它们在同一命名空间下显示为不同的目录。参见 http://www.alluxio.org/overview/storage-unification

关于您最初的性能问题。答案是,这取决于。如果您的 HDFS 远离计算,您会期望获得良好的性能提升。我也看到了 HDFS 出现瓶颈的情况,Alluxio 也可能有助于减少负载并为某些关键任务工作提供良好的 SLA。