'None' pytorch 中的梯度

Question

我正在尝试实现一个简单的 MDN，它预测目标变量而不是点值的分布参数，然后将概率分配给点值的离散 bin。缩小问题范围，'None' 的代码是：

import torch

# params
tte_bins = np.linspace(
    start=0, 
    stop=399, 
    num=400, 
    dtype='float32'
).reshape(1, 1, -1)
bins = torch.tensor(tte_bins, dtype=torch.float32)
x_train = np.random.randn(1, 1024, 3)
y_labels = np.random.randint(low=0, high=399, size=(1, 1024))
y_train = np.eye(400)[y_labels]

# data
in_train = torch.tensor(x_train[0:1, :, :], dtype=torch.float)
in_train = (in_train - torch.mean(in_train)) / torch.std(in_train)
out_train = torch.tensor(y_train[0:1, :, :], dtype=torch.float)

# model
linear = torch.nn.Linear(in_features=3, out_features=2)
lin = linear(in_train)
preds = torch.exp(lin)

# intermediate values
alpha = torch.clamp(preds[0:1, :, 0:1], 0, 500)
beta = torch.clamp(preds[0:1, :, 1:2], 0, 100)

# probs
p1 = torch.exp(-torch.pow(bins / alpha, beta))
p2 = torch.exp(-torch.pow((bins + 1.0) / alpha, beta))
probs = p1 - p2

# loss
loss = torch.mean(torch.pow(out_train - probs, 2))

# gradients
loss.backward()
for p in linear.parameters():
    print(p.grad, 'gradient')

in_train 具有形状：[1, 1024, 3]，out_train 具有形状：[1, 1024, 400]，垃圾箱具有形状：[1, 1, 400]。所有的广播等。似乎发现，结果矩阵（如 alpha/beta/loss）是正确的形状并具有正确的值 - 根本没有梯度

编辑：添加了 loss.backward() 和 x_train/y_train，现在我有 nans

Answer 1

你只是忘了计算梯度。当你计算损失时，你永远不会告诉 pytorch 它应该计算梯度的函数。

只需添加

loss.backward()

您的代码应该可以解决问题。

此外，在您的代码中，某些中间结果（如 alpha 有时为零，但在计算梯度时位于分母中。这将导致您观察到的 nan 结果。

'None' pytorch 中的梯度

'None' gradients in pytorch

python

machine-learning

mixture-model

pytorch