权重和偏差扫描 Keras K 折验证
Weights&Biases Sweep Keras K-Fold Validation
我在 Keras 中使用基于云的权重和偏差扫描。
因此,首先我在 W&B 项目中创建一个新的 Sweep,其配置如下:
description: LSTM Model
method: random
metric:
goal: maximize
name: val_accuracy
name: LSTM-Sweep
parameters:
batch_size:
distribution: int_uniform
max: 128
min: 32
epochs:
distribution: constant
value: 200
node_size1:
distribution: categorical
values:
- 64
- 128
- 256
node_size2:
distribution: categorical
values:
- 64
- 128
- 256
node_size3:
distribution: categorical
values:
- 64
- 128
- 256
node_size4:
distribution: categorical
values:
- 64
- 128
- 256
node_size5:
distribution: categorical
values:
- 64
- 128
- 256
num_layers:
distribution: categorical
values:
- 1
- 2
- 3
optimizer:
distribution: categorical
values:
- Adam
- Adamax
- Adagrad
path:
distribution: constant
value: "./path/to/data/"
program: sweep.py
project: SLR
我的 sweep.py
文件看起来像这样:
# imports
init = wandb.init(project="my-project", reinit=True)
config = wandb.config
def main():
skfold = StratifiedKFold(n_splits=5,
shuffle=True, random_state=7)
cvscores = []
group_id = wandb.util.generate_id()
X,y = # load data
i = 0
for train, test in skfold.split(X,y):
i=i+1
run = wandb.init(group=group_id, reinit=True, name=group_id+"#"+str(i))
model = # build model
model.fit([...], WandBCallback())
cvscores.append([...])
wandb.join()
if __name__ == "__main__":
main()
使用 sweep.py
文件夹中的 wandb agent
命令启动。
我对这个设置的体验是,第一个 wandb.init() 调用初始化了一个新的 运行。好的,我可以删除它。但是当第二次调用 wandb.init() 时,它似乎忘记了正在 运行 进入的扫描。在线扫描中列出了一个空的 运行 (因为第一次wandb.init() 调用),所有其他 运行 都在项目中列出,但不在扫描中。
我的目标是对 k 折交叉验证的每一折进行 运行。至少我认为这是这样做的正确方法。
是否有不同的方法将扫描与 keras k 折交叉验证相结合?
我们整理了一个如何完成 k-fold 交叉验证的示例:
https://github.com/wandb/examples/tree/master/examples/wandb-sweeps/sweeps-cross-validation
该解决方案需要对 wandb 库进行一些扭曲,以代表已启动的扫描作业生成多个作业。
基本思路是:
- 代理从云托管参数服务器请求一组新参数。这是在main函数中调用
sweep_run
的运行。
- 将关于折叠应该通过多处理队列处理什么的信息发送到等待进程
- 每个生成的进程都记录到它们自己的 运行,与组和 job_type 一起组织以在 UI
中启用 auto-grouping
- 进程完成后,它会通过队列将主要指标发送到父扫描 运行
- 扫描 运行 从子 运行 中读取指标并将其记录到扫描 运行 以便扫描可以使用该结果来影响未来的参数选择 and/or hyperband 提前终止优化
可以在此处查看扫描和 k-fold 分组的可视化示例:
我在 Keras 中使用基于云的权重和偏差扫描。 因此,首先我在 W&B 项目中创建一个新的 Sweep,其配置如下:
description: LSTM Model
method: random
metric:
goal: maximize
name: val_accuracy
name: LSTM-Sweep
parameters:
batch_size:
distribution: int_uniform
max: 128
min: 32
epochs:
distribution: constant
value: 200
node_size1:
distribution: categorical
values:
- 64
- 128
- 256
node_size2:
distribution: categorical
values:
- 64
- 128
- 256
node_size3:
distribution: categorical
values:
- 64
- 128
- 256
node_size4:
distribution: categorical
values:
- 64
- 128
- 256
node_size5:
distribution: categorical
values:
- 64
- 128
- 256
num_layers:
distribution: categorical
values:
- 1
- 2
- 3
optimizer:
distribution: categorical
values:
- Adam
- Adamax
- Adagrad
path:
distribution: constant
value: "./path/to/data/"
program: sweep.py
project: SLR
我的 sweep.py
文件看起来像这样:
# imports
init = wandb.init(project="my-project", reinit=True)
config = wandb.config
def main():
skfold = StratifiedKFold(n_splits=5,
shuffle=True, random_state=7)
cvscores = []
group_id = wandb.util.generate_id()
X,y = # load data
i = 0
for train, test in skfold.split(X,y):
i=i+1
run = wandb.init(group=group_id, reinit=True, name=group_id+"#"+str(i))
model = # build model
model.fit([...], WandBCallback())
cvscores.append([...])
wandb.join()
if __name__ == "__main__":
main()
使用 sweep.py
文件夹中的 wandb agent
命令启动。
我对这个设置的体验是,第一个 wandb.init() 调用初始化了一个新的 运行。好的,我可以删除它。但是当第二次调用 wandb.init() 时,它似乎忘记了正在 运行 进入的扫描。在线扫描中列出了一个空的 运行 (因为第一次wandb.init() 调用),所有其他 运行 都在项目中列出,但不在扫描中。
我的目标是对 k 折交叉验证的每一折进行 运行。至少我认为这是这样做的正确方法。 是否有不同的方法将扫描与 keras k 折交叉验证相结合?
我们整理了一个如何完成 k-fold 交叉验证的示例:
https://github.com/wandb/examples/tree/master/examples/wandb-sweeps/sweeps-cross-validation
该解决方案需要对 wandb 库进行一些扭曲,以代表已启动的扫描作业生成多个作业。
基本思路是:
- 代理从云托管参数服务器请求一组新参数。这是在main函数中调用
sweep_run
的运行。 - 将关于折叠应该通过多处理队列处理什么的信息发送到等待进程
- 每个生成的进程都记录到它们自己的 运行,与组和 job_type 一起组织以在 UI 中启用 auto-grouping
- 进程完成后,它会通过队列将主要指标发送到父扫描 运行
- 扫描 运行 从子 运行 中读取指标并将其记录到扫描 运行 以便扫描可以使用该结果来影响未来的参数选择 and/or hyperband 提前终止优化
可以在此处查看扫描和 k-fold 分组的可视化示例: