张量流+LSF。 LSF 集群上的分布式张量流

Tensorflow + LSF. Distributed tensorflow on LSF cluster

如何设置 tensorflow 以与 LSF 作业调度程序一起工作?我几乎没有使用 LSF 的经验。 tf.train.ClusterSpec 需要工作人员和参数服务器的 IP 地址。是否可以从 LSF 环境中获取它们?有没有让他们一起工作的成功案例?

编辑:

找到了一些关于如何在 Slurm 集群上实现类似目标的解释 。基本上,我正在寻找类似的东西,但对于 LSF 作业调度程序

有博客 post 和 LSF 上 TensorFlow 的示例启动脚本 here

您可以在 LSF 上执行此操作,但我不推荐这样做。我建议的是,如果您可以使用 Docker 并走那条路。 LSF 还有很多其他可能出错的并发症。此外,TensorFlow 并非完全设计用于 运行 在像 LSF 这样的系统上。

Docker 过去,Swarm 和 Compose 在解决这个特定问题时效果很好。