crash后继续训练style-gan 2网络

Question

我一直在尝试使用自定义数据集训练 style-gan2 网络。不幸的是，我目前运行用于计算的服务器有些不稳定，导致它在训练三天后崩溃。我有什么办法可以在网络崩溃前使用网络的最后快照继续训练网络吗？我看过一些关于网络持续训练的参考资料，但 style-gan 或 style-gan2 github 页面都没有提到它。

Answer 1

在深入研究代码后，我明白了。原来 training\training_loop 中有一个 resume_pkl 变量。通过将该变量设置为我想从中恢复的快照的路径，我能够重新启动训练过程。网络目前已经恢复训练，有什么问题我会在这里再评论。

Answer 2

也有支持这个的拉取请求： https://github.com/NVlabs/stylegan2/pull/6

Answer 3

查看您的 stylegan2-master/results/ 并找到最近的检查点，类似于：

network-snapshot-005120.pkl

然后你需要在 training_loop.py

中编辑几个变量

插入该检查点 pkl 文件的完整路径（进入变量 "resume_pkl"）

然后将 kimg 值 ("005120") 转换为浮点数，并将其插入 resume_kimg。 resume_kimg 很重要，因为它需要知道在哪里恢复学习率曲线。

这是 mien 的样子：

resume_pkl = '/mnt/harddrive/stylegan2encoder-master/results/00012-stylegan2-testexperiment-1gpu-config-f/network-snapshot-005120.pkl',

resume_kimg  = 5120.0,

至于 resume_time，我只是将它保留为零，因为我知道它已经训练了大约 100 天。

之后，

返回并运行您用于启动第一个会话的相同命令。

python run_training.py --num-gpus=1 --data-dir=/mnt/harddrive/stylegan2encoder-master/datasets/ --config=config-f --dataset=testexperiment

crash后继续训练style-gan 2网络

Continue training style-gan 2 network after crash

nvidia

machine-learning

generative-adversarial-network