分布式张量流在哪里保存数据
Distributed tensorflow where to keep data
我正在使用 3 台机器进行分布式张量流(2 台工人和 1 台 ps)。都位于同一个集群上。我已将数据放在工人 1 上。我的模型运行良好,但它仅使用 ps 和 1 名工人。
我的问题是如何放置数据以便我所有的员工都可以访问它?我应该把它放在像 hdfs 这样的共享内存中吗?
tf.reset_default_graph()
if FLAGS.job_name == "ps":
server.join()
elif FLAGS.job_name == "worker":
# Between-graph replication
with tf.device(tf.train.replica_device_setter( worker_device="/job:worker/task:%d" % FLAGS.task_index, cluster=Cluster)):
## here defining my model, cost, optimizer
sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), global_step=global_step, init_op=init_op)
with sv.prepare_or_wait_for_session(server.target) as sess:
for epoch in range(training_epochs):
cost_val = sess.run([ cost ], feed_dict={X: data})
在这里找到了一些相关信息:
[1]
看来我们需要创建 TFRecords。
我正在使用 3 台机器进行分布式张量流(2 台工人和 1 台 ps)。都位于同一个集群上。我已将数据放在工人 1 上。我的模型运行良好,但它仅使用 ps 和 1 名工人。 我的问题是如何放置数据以便我所有的员工都可以访问它?我应该把它放在像 hdfs 这样的共享内存中吗?
tf.reset_default_graph()
if FLAGS.job_name == "ps":
server.join()
elif FLAGS.job_name == "worker":
# Between-graph replication
with tf.device(tf.train.replica_device_setter( worker_device="/job:worker/task:%d" % FLAGS.task_index, cluster=Cluster)):
## here defining my model, cost, optimizer
sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), global_step=global_step, init_op=init_op)
with sv.prepare_or_wait_for_session(server.target) as sess:
for epoch in range(training_epochs):
cost_val = sess.run([ cost ], feed_dict={X: data})
在这里找到了一些相关信息:
[1]