分布式张量流在哪里保存数据

Distributed tensorflow where to keep data

我正在使用 3 台机器进行分布式张量流(2 台工人和 1 台 ps)。都位于同一个集群上。我已将数据放在工人 1 上。我的模型运行良好,但它仅使用 ps 和 1 名工人。 我的问题是如何放置数据以便我所有的员工都可以访问它?我应该把它放在像 hdfs 这样的共享内存中吗?

tf.reset_default_graph()
if FLAGS.job_name == "ps":
    server.join()
elif FLAGS.job_name == "worker":
    # Between-graph replication
    with tf.device(tf.train.replica_device_setter( worker_device="/job:worker/task:%d" % FLAGS.task_index, cluster=Cluster)):
      ## here defining my model, cost, optimizer

    sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), global_step=global_step, init_op=init_op)
    with sv.prepare_or_wait_for_session(server.target) as sess:
        for epoch in range(training_epochs):
           cost_val = sess.run([ cost ], feed_dict={X: data})
                   

在这里找到了一些相关信息: [1] 看来我们需要创建 TFRecords。