集群文件系统或网络复制？

Cluster Filesystem OR Replication over Network?

我有一个由 5 个微型服务器 (Raspberry Pi) 组成的集群，每个都有一个 8GB 的 USB 驱动器，仅用于试验集群等。
它们通过 LAN 连接到交换机，暂时没有连接到互联网
我需要的是一种在每台服务器上拥有相同文件的方法，正如标题所说，备选方案是：
.在 5 台服务器上复制相同的数据，只有 ~8GB space 5 次
.在网络上有一个 "JBOD"，所以总计约 40GB
对上述任何解决方案的任何建议表示赞赏。
存储的文件并不重要，因此不需要 reliability/availability。
祝你有美好的一天。

您需要问自己一个问题，即您打算使用哪种分布式计算。如果您正在查看流行的 MapReduce 框架中的数据本地计算，您可能希望安装这些框架之一。它们基于分布式文件系统并与之耦合。所以基本上你有一个更高级别的文件系统，你可以通过 API 访问它。您写入这些文件系统的数据会分散到整个集群中。在 MapReduce 处理范例中，映射阶段可以利用此数据局部性，因为它 processes/loads 仅来自本地块的数据。

如果您对 HPC/cluster 方法更感兴趣，您可能会研究基于 MPI 的系统。在这些系统中，您操作的级别稍微低一些。在这种情况下可以很好地工作的是，您使用 NFS 和 OverlayFS 的组合来使数据对所有节点可用。这将像这样工作，您的每个 Pi 都通过 NFS 共享其 USB。所有其他 Pi 挂载所有其他 Pi 的文件系统。因此，在 Pi-0 上，您最终会挂载到从 Pi-1 到 4 等的共享。使用 OverlayFS，您可以让来自各个共享的数据显示在一个文件夹中。

如果您的任何 MPI 工作人员需要读取文件，他们基本上都可以从明确定义的路径读取，并且如果需要，数据将通过网络透明地拉入。

由于 NFS 已经存在了很多年，许多性能改进对它来说是疯狂的，而且通常开销很小，这甚至可能是一个非常高效的解决方案。

让我们了解您在这里计划的这个激动人心的项目的最新信息！

集群文件系统或网络复制？

Cluster Filesystem OR Replication over Network?

filesystems

storage

distributed-computing

cluster-computing

server