通过 HParams 和 Tensorboard 进行贝叶斯优化

Bayesian Optimisation via HParams and Tensorboard

我目前正在使用 HParams 发起网格搜索超参数优化会话,它工作正常,并且正在将日志输出到我的张量板 HParams 插件,我可以看到各种不同的运行和并行坐标视图。代码结构如下,虽然对于这个问题可能没有必要复习它:

def hparam_wrap(args, n_classes, train_dataset, val_dataset, tokenizer):
    log_date_subfolder = time.strftime("%Y%m%d-%H%M%S")
    hparams_dict={
        'HP_EMBEDDING_NODES': hp.HParam('embedding_nodes', hp.Discrete([200,300])),
        'HP_LSTM_NODES': hp.HParam('lstm_nodes', hp.Discrete([200,300])),
        'HP_TIMEDIST_NODES': hp.HParam('timedist_nodes', hp.Discrete([200,300])),
        'HP_NUM_DENSE_LAYERS': hp.HParam('num_dense_layers', hp.Discrete([3,4, 5])),
        'HP_DENSE_NODES': hp.HParam('dense_nodes', hp.Discrete([300,400, 500])),
        'HP_LEARNING_RATE': hp.HParam('learning_rate', hp.Discrete([0.001, 0.0001, 0.00001])),
        'HP_DROPOUT': hp.HParam('dropout', hp.Discrete([0.3, 0.4,0.5, 0.6])),
        'HP_BATCH_SIZE': hp.HParam('batch_size', hp.Discrete([96]))
    }
    session_num = 0
    for en in hparams_dict['HP_EMBEDDING_NODES'].domain.values:
        for ln in hparams_dict['HP_LSTM_NODES'].domain.values:
            for td in hparams_dict['HP_TIMEDIST_NODES'].domain.values:
                for dl in hparams_dict['HP_NUM_DENSE_LAYERS'].domain.values:
                    for dn in hparams_dict['HP_DENSE_NODES'].domain.values:
                        for lr in hparams_dict['HP_LEARNING_RATE'].domain.values:
                            for do in hparams_dict['HP_DROPOUT'].domain.values:
                                for bs in hparams_dict['HP_BATCH_SIZE'].domain.values:
                                    hparams ={
                                        'HP_NUM_DENSE_LAYERS': dl,
                                        'HP_LEARNING_RATE': lr,
                                        'HP_DROPOUT': do,
                                        'HP_DENSE_NODES': dn,
                                        'HP_BATCH_SIZE': bs,
                                        'HP_EMBEDDING_NODES': en,
                                        'HP_LSTM_NODES': ln,
                                        'HP_TIMEDIST_NODES': td
                                    }
                                    run_name = "run-%d" % session_num
                                    print('--- Starting trial: %s' % run_name)
                                    print({h: hparams[h] for h in hparams})

                                    log_dir = os.path.join('s3://sn-classification', args.type, 'Logs', args.country,
                                                           args.subfolder, 'HParams', log_date_subfolder)

                                    run_hparam(log_dir, hparams, hparams_dict, args, n_classes, train_dataset,
                                               val_dataset, tokenizer)
                                    session_num += 1


def run_hparam(log_dir, hparams, hparams_dict, args, n_classes, train_dataset, val_dataset, tokenizer):
  with tf.summary.create_file_writer(log_dir).as_default():
    hp.hparams_config(
    hparams=list(hparams_dict.values()),
    metrics=[hp.Metric('val_top_k_categorical_accuracy', display_name='TopK_Val_Accuracy'),hp.Metric('val_loss', display_name='val_loss')]
  )
    # hp.hparams(hparams)  # record the values used in this trial
    hp.hparams({hparams_dict[h]: hparams[h] for h in hparams_dict.keys()})
    history = train(args,n_classes,hparams,train_dataset, val_dataset, tokenizer)
    tf.summary.scalar('val_top_k_categorical_accuracy', history['val_top_k_categorical_accuracy'][-1], step=1)
    tf.summary.scalar('val_loss', history['val_loss'][-1], step=1)

我已经进行了大量的谷歌搜索,但我仍然不确定如何着手实施更有效的优化会话,例如贝叶斯优化,以便更快地找到最佳模型。我只想知道 - 是否可以在 HParams 中进行贝叶斯优化,或者我是否需要使用不同的包,如权重和偏差?如果可能的话,有关在哪里可以找到此类实现示例的任何建议都将非常有帮助。

这是一个长期的 open feature request,不幸的是目前还没有在 HPARAMS 部分实现,但是 Keras-tuner 将允许您记录每个 运行.将超参数值编码到这些目录名称中可能是一种快速而肮脏的解决方法。为了未来读者的利益,我在本答案末尾提供了使用 TensorBoard 进行贝叶斯优化的指南。

我可能会补充说,TensorBoard 可视化对于使用网格或随机搜索来通知开发人员的手动调整直觉很有用,但由于贝叶斯优化是一个独立的黑盒优化器,您应该能够让它 运行 优化本身不会因缺乏可视化而受到影响——尽管我同意这仍然是一个不错的功能。

为了在 TensorFlow 中实施贝叶斯优化并记录每个 运行 的损失,我为未来的读者提供以下内容:

首先定义一个HyperParameters对象hp.

from kerastuner.engine.hyperparameters import HyperParameters
hp = HyperParameters()

使用参数 hp 编写一个 model_builder 函数,使用 hp.get('name') 将超参数合并到模型中。定义一个 Keras-tuner BayesianOptimization tuner.

import kerastuner as kt
tuner = kt.BayesianOptimization(model_builder,
                                hyperparameters = hp,
                                max_trials      = 20,
                                objective       = 'val_loss')

在您的回调中包含 tf.keras.callbacks.TensorBoard(cb_dir) 以记录目录 cb_dir 中每个 运行 BaysianOptimiser 的损失图。这包括针对纪元的标量图,但不包括 HPARAMS 部分。您可能希望命名这些 运行 文件,以便它们列出超参数。

tuner.search(inputs, prices,
             validation_split = 0.2,
             batch_size       = 32,
             callbacks        = [tf.keras.callbacks.TensorBoard(cb_dir)],
             epochs           = 30)

通过

访问得分最高的 n 超参数组合的字典
ith_best_hp_dict = tuner.get_best_hyperparameters(num_trials = n)[i]