张量流+LSF。 LSF 集群上的分布式张量流
Tensorflow + LSF. Distributed tensorflow on LSF cluster
如何设置 tensorflow 以与 LSF 作业调度程序一起工作?我几乎没有使用 LSF 的经验。 tf.train.ClusterSpec 需要工作人员和参数服务器的 IP 地址。是否可以从 LSF 环境中获取它们?有没有让他们一起工作的成功案例?
编辑:
找到了一些关于如何在 Slurm 集群上实现类似目标的解释 。基本上,我正在寻找类似的东西,但对于 LSF 作业调度程序
有博客 post 和 LSF 上 TensorFlow 的示例启动脚本 here。
您可以在 LSF 上执行此操作,但我不推荐这样做。我建议的是,如果您可以使用 Docker 并走那条路。 LSF 还有很多其他可能出错的并发症。此外,TensorFlow 并非完全设计用于 运行 在像 LSF 这样的系统上。
Docker 过去,Swarm 和 Compose 在解决这个特定问题时效果很好。
如何设置 tensorflow 以与 LSF 作业调度程序一起工作?我几乎没有使用 LSF 的经验。 tf.train.ClusterSpec 需要工作人员和参数服务器的 IP 地址。是否可以从 LSF 环境中获取它们?有没有让他们一起工作的成功案例?
编辑:
找到了一些关于如何在 Slurm 集群上实现类似目标的解释
有博客 post 和 LSF 上 TensorFlow 的示例启动脚本 here。
您可以在 LSF 上执行此操作,但我不推荐这样做。我建议的是,如果您可以使用 Docker 并走那条路。 LSF 还有很多其他可能出错的并发症。此外,TensorFlow 并非完全设计用于 运行 在像 LSF 这样的系统上。
Docker 过去,Swarm 和 Compose 在解决这个特定问题时效果很好。