当指定 "retain_graph=True" 时,PyTorch 的 loss.backward() 如何工作?
How does PyTorch's loss.backward() work when "retain_graph=True" is specified?
我是 PyTorch 和对抗网络的新手。我试图在 PyTorch 文档以及 PyTorch 和 Whosebug 论坛中之前的讨论中寻找答案,但我找不到任何有用的东西。
我正在尝试使用生成器和鉴别器训练 GAN,但我无法理解整个过程是否有效。就我而言,我应该先训练生成器,然后更新鉴别器的权重(类似于 this)。我更新两个模型权重的代码是:
# computing loss_g and loss_d...
optim_g.zero_grad()
loss_g.backward()
optim_g.step()
optim_d.zero_grad()
loss_d.backward()
optim_d.step()
其中loss_g
是生成器损失,loss_d
是判别器损失,optim_g
是参考生成器参数的优化器,optim_d
是判别器优化器。
如果我 运行 这样的代码,我会得到一个错误:
RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.
所以我指定loss_g.backward(retain_graph=True)
,我的疑问来了:如果有两个网络有两个不同的图,我为什么要指定retain_graph=True
?我是不是弄错了什么?
拥有两个不同的网络并不一定意味着计算图不同。计算图仅跟踪从输入到输出执行的操作,与操作发生的位置无关。换句话说,如果您在第二个模型中使用第一个模型的输出(例如 model2(model1(input))
),您将拥有相同的顺序操作,就好像它们是同一模型的一部分一样。事实上,这与模型的不同部分(例如多个卷积)一个接一个地应用没有什么不同。
你得到的错误表明你正试图通过生成器从鉴别器反向传播,这意味着鉴别器的输出直接调整生成器的参数以使鉴别器成功。在你想要避免的对抗环境中,它们应该彼此独立。通过设置 retrain_graph=True
你错误地隐藏了这个错误。在几乎所有情况下,retain_graph=True
都不是解决方案,应该避免。
要解决该问题,需要使这两个模型相互独立。当您将生成器输出用作鉴别器时,会发生两个模型之间的交叉,因为它应该决定它是真实的还是假的。沿着这些线的东西:
fake = generator(noise)
real_prediction = discriminator(real)
# Using the output of the generator, continues the graph.
fake_prediction = discriminator(fake)
尽管fake
来自生成器,但就鉴别器而言,它只是另一个输入,就像real
一样。因此 fake
应该与 real
一样对待,它不附加到任何计算图。这可以通过 torch.Tensor.detach
轻松完成,它将张量与图形分离。
fake = generator(noise)
real_prediction = discriminator(real)
# Detach to make it independent of the generator
fake_prediction = discriminator(fake.detach())
这也是在您引用的代码中完成的,来自 erikqu/EnhanceNet-PyTorch - train.py:
hr_imgs = torch.cat([discriminator(hr), discriminator(generated_hr.detach())], dim=0)
我是 PyTorch 和对抗网络的新手。我试图在 PyTorch 文档以及 PyTorch 和 Whosebug 论坛中之前的讨论中寻找答案,但我找不到任何有用的东西。
我正在尝试使用生成器和鉴别器训练 GAN,但我无法理解整个过程是否有效。就我而言,我应该先训练生成器,然后更新鉴别器的权重(类似于 this)。我更新两个模型权重的代码是:
# computing loss_g and loss_d...
optim_g.zero_grad()
loss_g.backward()
optim_g.step()
optim_d.zero_grad()
loss_d.backward()
optim_d.step()
其中loss_g
是生成器损失,loss_d
是判别器损失,optim_g
是参考生成器参数的优化器,optim_d
是判别器优化器。
如果我 运行 这样的代码,我会得到一个错误:
RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.
所以我指定loss_g.backward(retain_graph=True)
,我的疑问来了:如果有两个网络有两个不同的图,我为什么要指定retain_graph=True
?我是不是弄错了什么?
拥有两个不同的网络并不一定意味着计算图不同。计算图仅跟踪从输入到输出执行的操作,与操作发生的位置无关。换句话说,如果您在第二个模型中使用第一个模型的输出(例如 model2(model1(input))
),您将拥有相同的顺序操作,就好像它们是同一模型的一部分一样。事实上,这与模型的不同部分(例如多个卷积)一个接一个地应用没有什么不同。
你得到的错误表明你正试图通过生成器从鉴别器反向传播,这意味着鉴别器的输出直接调整生成器的参数以使鉴别器成功。在你想要避免的对抗环境中,它们应该彼此独立。通过设置 retrain_graph=True
你错误地隐藏了这个错误。在几乎所有情况下,retain_graph=True
都不是解决方案,应该避免。
要解决该问题,需要使这两个模型相互独立。当您将生成器输出用作鉴别器时,会发生两个模型之间的交叉,因为它应该决定它是真实的还是假的。沿着这些线的东西:
fake = generator(noise)
real_prediction = discriminator(real)
# Using the output of the generator, continues the graph.
fake_prediction = discriminator(fake)
尽管fake
来自生成器,但就鉴别器而言,它只是另一个输入,就像real
一样。因此 fake
应该与 real
一样对待,它不附加到任何计算图。这可以通过 torch.Tensor.detach
轻松完成,它将张量与图形分离。
fake = generator(noise)
real_prediction = discriminator(real)
# Detach to make it independent of the generator
fake_prediction = discriminator(fake.detach())
这也是在您引用的代码中完成的,来自 erikqu/EnhanceNet-PyTorch - train.py:
hr_imgs = torch.cat([discriminator(hr), discriminator(generated_hr.detach())], dim=0)