PyTorch分布式训练时如何设置随机种子？

Question

现在我正在使用 torch.distributed 训练模型，但我不确定如何设置随机种子。例如，这是我当前的代码：

def main():
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    torch.cuda.manual_seed(args.seed)

    cudnn.enabled = True
    cudnn.benchmark = True
    cudnn.deterministic = True 

    mp.spawn(main_worker, nprocs=args.ngpus, args=(args,))

我应该移动

    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    torch.cuda.manual_seed(args.seed)

    cudnn.enabled = True
    cudnn.benchmark = True
    cudnn.deterministic = True

进入函数 main_worker() 以确保每个进程都有正确的种子和 cudnn 设置？顺便说一句，我试过这个，这个行为会让训练慢2倍，这让我很困惑。

非常感谢您的帮助！

Answer 1

派生的子进程不会继承您在父进程中手动设置的种子，因此您需要在main_worker函数中设置种子。

同样的逻辑适用于cudnn.benchmark和cudnn.deterministic，所以如果你想使用它们，你也必须在main_worker中设置它们。如果你想验证这一点，你可以在每个进程中打印它们的值。

cudnn.benchmark = True 尝试通过对某些操作的各种实现进行基准测试（例如 available convolution algorithms）来为您的模型找到最佳算法。找到最佳算法需要时间，但一旦完成，进一步的迭代可能会更快。被确定为最佳的算法仅适用于所使用的特定输入大小。如果在下一次迭代中您有不同的输入大小，则基准需要再次为运行，以便确定针对该特定输入大小的最佳算法，这可能与第一个输入大小不同。

我假设您的输入大小不同，这可以解释速度变慢的原因，因为在父进程中设置时未使用基准。 cudnn.benchmark = True 仅当输入大小固定时才应使用。

cudnn.determinstic = True 也可能对性能产生负面影响，因为某些非确定性的底层操作需要用确定性版本替换，这往往更慢，否则确定性版本将首先使用，但性能影响不应太显着。

PyTorch分布式训练时如何设置随机种子？

How to set random seed when it is in distributed training in PyTorch?

python

parallel-processing

distributed

pytorch

python-parallel