运行 分布式张量流训练上的多个模型步骤混乱
running multiple models on a distributed tensorflow train steps messd
我正在尝试构建 a distribute tensorflow framwork template,但有几个问题让我很困惑。
- 当我在 script,does it mean I use
Synchronous training
as in doc? 中使用 --sync_replas=True
- 为什么 worker_0.log and worker_1.log 中的全球步骤
是不是递增?
- 为什么全局步骤不是从0开始而是像这样
1499169072.773628: Worker 0: training step 1 done (global step: 339)
training step
和global step
有什么关系?
从create cluster script可以看出,我在这个集群上同时创建了一个独立的cluster.Can我运行多个不同的模型?
- 可能,但取决于特定的图书馆
- 在分布式训练期间,可能存在竞争条件,因此全局步骤的增量和读取不是完全有序的。这很好。
- 这可能是因为您是从检查点加载的?
- 不清楚,取决于您使用的库
- 每个集群一个模型更容易管理。不过,在同一组机器上创建多个 tf 集群是可以的。
我正在尝试构建 a distribute tensorflow framwork template,但有几个问题让我很困惑。
- 当我在 script,does it mean I use
Synchronous training
as in doc? 中使用 - 为什么 worker_0.log and worker_1.log 中的全球步骤 是不是递增?
- 为什么全局步骤不是从0开始而是像这样
--sync_replas=True
1499169072.773628: Worker 0: training step 1 done (global step: 339)
training step
和global step
有什么关系?从create cluster script可以看出,我在这个集群上同时创建了一个独立的cluster.Can我运行多个不同的模型?
- 可能,但取决于特定的图书馆
- 在分布式训练期间,可能存在竞争条件,因此全局步骤的增量和读取不是完全有序的。这很好。
- 这可能是因为您是从检查点加载的?
- 不清楚,取决于您使用的库
- 每个集群一个模型更容易管理。不过,在同一组机器上创建多个 tf 集群是可以的。