未能 运行 tensorflow 分布式 MNIST 测试
Failed to run tensorflow distributed MNIST test
我通过从源代码构建安装了 tensorflow 0.8。
我使用具有 4 个 GPU 的 AWS EC2 g2.8xlarge 实例。
我试过 运行 tensorflow 分布式 mnist 测试,代码在这里:
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh
我的脚本:
bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"
我收到了这条消息:
E0609 14:53:07.430440599 62872 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934 62873 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused
有人知道这里出了什么问题吗?非常感谢!
我怀疑这里存在网络问题。我要采取的第一个调试步骤是使用 netstat 等工具确保套接字 2223 和 2224 实际上正在被监听。这是对如何做到这一点的一个很好的一般描述:
https://askubuntu.com/questions/278448/how-to-know-what-program-is-listening-on-a-given-port
如果可行,请尝试使用 telnet 手动连接到套接字,以确保网络寻址正常工作。
此脚本不 运行 独立。特别是,它期望您在脚本 运行ning 运行ning 每个地址处创建了一个 TensorFlow 集群,其中工作人员 运行ning。 create_tf_cluster.sh
script can set up such a cluster using Kubernetes. The dist_test.sh
脚本 运行 这些脚本端到端。
参见 你的其他问题,其中有一个建议的脚本 运行ning MNIST on distributed TensorFlow。
我通过从源代码构建安装了 tensorflow 0.8。 我使用具有 4 个 GPU 的 AWS EC2 g2.8xlarge 实例。 我试过 运行 tensorflow 分布式 mnist 测试,代码在这里: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh
我的脚本:
bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"
我收到了这条消息:
E0609 14:53:07.430440599 62872 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934 62873 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused
有人知道这里出了什么问题吗?非常感谢!
我怀疑这里存在网络问题。我要采取的第一个调试步骤是使用 netstat 等工具确保套接字 2223 和 2224 实际上正在被监听。这是对如何做到这一点的一个很好的一般描述: https://askubuntu.com/questions/278448/how-to-know-what-program-is-listening-on-a-given-port
如果可行,请尝试使用 telnet 手动连接到套接字,以确保网络寻址正常工作。
此脚本不 运行 独立。特别是,它期望您在脚本 运行ning 运行ning 每个地址处创建了一个 TensorFlow 集群,其中工作人员 运行ning。 create_tf_cluster.sh
script can set up such a cluster using Kubernetes. The dist_test.sh
脚本 运行 这些脚本端到端。
参见