集群文件系统或网络复制?

Cluster Filesystem OR Replication over Network?

我有一个由 5 个微型服务器 (Raspberry Pi) 组成的集群,每个都有一个 8GB 的​​ USB 驱动器,仅用于试验集群等。
它们通过 LAN 连接到交换机,暂时没有连接到互联网
我需要的是一种在每台服务器上拥有相同文件的方法,正如标题所说,备选方案是:
.在 5 台服务器上复制相同的数据,只有 ~8GB space 5 次
.在网络上有一个 "JBOD",所以总计约 40GB
对上述任何解决方案的任何建议表示赞赏。
存储的文件并不重要,因此不需要 reliability/availability。
祝你有美好的一天。

您需要问自己一个问题,即您打算使用哪种分布式计算。如果您正在查看流行的 MapReduce 框架中的数据本地计算,您可能希望安装这些框架之一。它们基于分布式文件系统并与之耦合。所以基本上你有一个更高级别的文件系统,你可以通过 API 访问它。您写入这些文件系统的数据会分散到整个集群中。在 MapReduce 处理范例中,映射阶段可以利用此数据局部性,因为它 processes/loads 仅来自本地块的数据。

如果您对 HPC/cluster 方法更感兴趣,您可能会研究基于 MPI 的系统。在这些系统中,您操作的级别稍微低一些。在这种情况下可以很好地工作的是,您使用 NFS 和 OverlayFS 的组合来使数据对所有节点可用。这将像这样工作,您的每个 Pi 都通过 NFS 共享其 USB。所有其他 Pi 挂载所有其他 Pi 的文件系统。因此,在 Pi-0 上,您最终会挂载到从 Pi-1 到 4 等的共享。使用 OverlayFS,您可以让来自各个共享的数据显示在一个文件夹中。

如果您的任何 MPI 工作人员需要读取文件,他们基本上都可以从明确定义的路径读取,并且如果需要,数据将通过网络透明地拉入。

由于 NFS 已经存在了很多年,许多性能改进对它来说是疯狂的,而且通常开销很小,这甚至可能是一个非常高效的解决方案。

让我们了解您在这里计划的这个激动人心的项目的最新信息!