使用 HDFS 在不同的 python 进程之间共享资源(文件)

Sharing a resource (file) across different python processes using HDFS

所以我有一些代码试图在 HDFS 上查找资源...如果不存在,它将计算该文件的内容,然后写入它。下次访问它时 reader 可以只查看该文件。这是为了防止对某些函数进行昂贵的重新计算

但是...我在同一集群的不同机器上同时有多个进程 运行。我怀疑他们正在尝试访问相同的资源,而我遇到了导致大量错误的竞争条件,导致我无法打开文件或文件存在但无法读取。

希望这个时间线能证明我认为我的问题是什么

  1. 进程A去访问资源X
  2. 进程 A 发现资源 X 存在并开始写入
  3. 进程B去访问资源X
  4. 进程A写完资源X ...等等

显然我希望进程 B 等待进程 A 完成资源 X,并在 A 完成后简单地读取它。

我想到了信号量之类的东西,但我不知道如何在查看相同 HDFS 位置的不同处理器上的不同 python 进程中使用它们。任何帮助将不胜感激

更新: 需要明确的是..进程 A 和进程 B 将最终计算出完全相同的输出(即相同的文件名,相同的内容,到相同的位置).理想情况下,B 不必计算它。 B 会等待 A 计算它,然后在 A 完成后读取输出。本质上,整个过程就像使用 HDFS 的 "long term cache" 一样工作。给定函数将具有输出签名的位置。任何需要函数输出的进程都会首先确定输出签名(这基本上是一些函数参数、输入等的哈希)。然后它将检查 HDFS 以查看它是否存在。如果不是...它将写入计算并将其写入 HDFS,以便其他进程也可以读取它。

(撇开 HDFS 听起来可能不是您的用例的正确解决方案,我假设您不能切换到其他解决方案。如果可以,请查看 Redis 或 memcached。 )

这似乎是您应该拥有一个负责 computing/caching 这些结果的单一服务的事情。这样,您所有的流程都必须做的就是请求创建资源(如果尚未创建)。如果尚未计算,服务将计算它;一旦它被计算出来(或者如果它已经被计算出来),一个表明资源可用的信号,或者甚至只是资源本身,都会返回到您的进程。

如果由于某种原因您不能这样做,您可以尝试使用 HDFS 进行同步。例如,您可以尝试创建具有标记值的资源,其中表示进程 A 当前正在构建此文件。同时,进程 A 可能正在计算值并将其写入临时资源;一旦完成,它就可以将临时资源移到哨兵资源上。它既笨拙又骇人听闻,您应该尽量避免使用它,但这是一个选择。

你说你想避免昂贵的重新计算,但如果进程 B 正在等待进程 A 计算资源,为什么进程 B(以及 C 和 D)不能同时计算它 itself/themselves?如果这对您来说没问题,那么在资源不存在的情况下,您可以让每个进程开始计算并写入一个临时文件,然后将该文件移动到资源位置。希望移动是原子的,所以其中一个会干净利落地获胜;如果它们完全相同,那也没关系。一旦它在那里,它将在未来可用。这确实涉及多个进程同时向 HDFS 集群发送相同数据的可能性,因此它不是最高效的,但它有多糟糕取决于您的用例。您可以通过例如在计算之后和上传到 HDFS 之前检查自您上次查看后是否有人创建了资源来降低效率;如果是这样,甚至不需要创建临时资源。

TLDR: 你可以只用 HDFS 来做,但是最好有一个服务来为你管理它,不使用可能会更好为此使用 HDFS(尽管您仍然可能希望服务为您处理它,即使您使用的是 Redis 或 memcached;这再次取决于您的特定用例)。