Horovod 和 Tensorflow 估计器

Horovod and Tensorflow estimators

如何将使用 tf.train.MonitoredTrainingSessionHorovod 示例扩展为使用 tf.estimator.Estimator?我正在使用 Tensorflow 1.4.0.

Here is an example 与我当前的代码非常相似。

我想将它与 hyperopt 一起使用,我喜欢这样轻松地做一些事情

tf.contrib.learn.learn_runner.run(
      experiment_fn=_create_my_experiment,
      run_config=run_config,
      schedule="train_and_evaluate",
      hparams=hparams)

使用不同的超参数进行训练,hparams。这也为训练集和验证集提供了单独的 Tensorboard 日志目录——我希望 Horovod 解决方案也是如此。我玩弄了一个 tf.train.SingularMonitoredSession(hooks=hooks, config=config),其中 hooks 包含一个 tf.train.SummarySaverHook,但我只能让它在训练集上很好地工作。

TensorFlow Estimator example 已添加到 Horovod 存储库。