Pytorch 连体网络不收敛

Question

大家早上好

下面是我实现的pytorch孪生网络。我使用 32 批量大小、MSE 损失和具有 0.9 动量的 SGD 作为优化器。

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 2), nn.ReLU())
        
    def forward(self, data):
        res = []
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = abs(res[1] - res[0])
        return self.linear2(fres)

每批包含交替对，即 [pos, pos], [pos, neg], [pos, pos] 等...但是，网络不收敛，问题似乎是网络中的 fres 每对都是相同的（不管是正对还是负对），self.linear2(fres)的输出总是约等于[0.0531, 0.0770]。这与我的预期相反，随着网络学习，[0.0531, 0.0770] 的第一个值对于正对会更接近 1，而对于负对，第二个值会更接近 1。这两个值也需要加起来为1.

我已经为 2 通道网络架构测试了完全相同的设置和相同的输入图像，其中，不是输入 [pos, pos]，而是以深度方式堆叠这 2 个图像，例如 numpy.stack([pos, pos], -1)。在此设置中，nn.Conv2d(1, 8, 7) 的维度也更改为 nn.Conv2d(2, 8, 7)。这工作得很好。

我还针对传统的 CNN 方法测试了完全相同的设置和输入图像，我只是将单个正负灰度图像传入网络，而不是堆叠它们（与 2-CH 方法一样) 或将它们作为图像对传递（与 Siamese 方法一样）。这也很完美，但结果不如 2 通道方法好。

编辑（我试过的解决方案）：

我尝试了多种不同的损失函数，包括 HingeEmbeddingLoss 和 CrossEntropyLoss，都或多或少地导致了相同的问题。所以我认为可以肯定地说问题不是由使用的损失函数引起的； MSELoss.
不同的批量大小似乎也对这个问题没有影响。
我尝试按照建议增加可训练参数的数量也不行。
尝试更改此处实施的网络架构：https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb。换句话说，将前向传递更改为以下代码。还将损失更改为 CrossEntropy，将优化器更改为 Adam。仍然没有运气：

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        x = x.view(-1, 64 * 15 * 20)
        res.append(x)
    fres = self.linear2(self.linear1(abs(res[1] - res[0]))))
    return fres

我还尝试将整个网络从 CNN 更改为线性网络，如下所示：https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb。还是不行。
尝试按照此处的建议使用更多数据：。运气不好...
试图在 convnet 的输出之间使用 torch.nn.PairwiseDistance。做了某种改进；网络在前几个时期开始收敛，然后每次都达到相同的平台：

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        res.append(x)
    pdist = nn.PairwiseDistance(p=2)
    diff = pdist(res[1], res[0])
    diff = diff.view(-1, 64 * 15 * 10)
    fres = self.linear2(self.linear1(diff))
    return fres

可能要注意的另一件事是，在我的研究范围内，为每个对象训练了一个连体网络。所以第一个 class 与包含相关对象的图像相关联，第二个 class 与包含其他对象的图像相关联。不知道这是否可能是问题的原因。然而，在传统 CNN 和 2 通道 CNN 方法的背景下，这不是问题。

应要求，这是我的训练代码：

model = SiameseCNN().cuda()
ls_fn = torch.nn.BCELoss()
optim = torch.optim.SGD(model.parameters(),  lr=1e-6, momentum=0.9)
epochs = np.arange(100)
eloss = []
for epoch in epochs:
    model.train()
    train_loss = []
    for x_batch, y_batch in dp.train_set:
        x_var, y_var = Variable(x_batch.cuda()), Variable(y_batch.cuda())
        y_pred = model(x_var)
        loss = ls_fn(y_pred, y_var)
        train_loss.append(abs(loss.item()))
        optim.zero_grad()
        loss.backward()
        optim.step()
    eloss.append(np.mean(train_loss))
    print(epoch, np.mean(train_loss))

注意 dp.train_set 中的 dp 是具有属性 train_set, valid_set, test_set 的 class，其中每个集合的创建方式如下：

DataLoader(TensorDataset(torch.Tensor(x), torch.Tensor(y)), batch_size=bs)

根据要求，这是预测概率与真实标签的示例，您可以在其中看到模型似乎没有在学习：

Predicted:  0.5030623078346252 Label:  1.0
Predicted:  0.5030624270439148 Label:  0.0
Predicted:  0.5030624270439148 Label:  1.0
Predicted:  0.5030625462532043 Label:  0.0
Predicted:  0.5030625462532043 Label:  1.0
Predicted:  0.5030626654624939 Label:  0.0
Predicted:  0.5030626058578491 Label:  1.0
Predicted:  0.5030627250671387 Label:  0.0
Predicted:  0.5030626654624939 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0
Predicted:  0.5030627846717834 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0

Answer 1

我觉得你的做法是对的，做的很好。我觉得有点奇怪的是最后一层有 RELU 激活。通常对于 Siamese 网络，当两个输入图像属于同一 class 时，您希望输出高概率，否则输出低概率。所以你可以用一个神经元输出和一个 sigmoid 激活函数来实现它。

因此我将按如下方式重新实现您的网络：

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 1), nn.Sigmoid())
        
    def forward(self, data):
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = res[0].sub(res[1]).pow(2)
        return self.linear2(fres)

然后为了与训练保持一致，您应该使用二元交叉熵：

criterion_fn = torch.nn.BCELoss()

当两个输入图像属于同一幅图像时，请记住将标签设置为 1 class。

此外，我建议您在 linear1 层之后使用一点点 dropout，大约 30% 的概率丢弃一个神经元。

Answer 2

问题已解决。事实证明，如果你每次都给它相同的图像，网络每次都会预测相同的输出。在数据分区期间，我的部分索引错误很小。感谢大家的帮助和帮助。这是现在收敛的一个例子：

0 0.20198837077617646
1 0.17636818194389342
2 0.15786472541093827
3 0.1412761415243149
4 0.126698794901371
5 0.11397973036766053
6 0.10332610329985618
7 0.09474560652673245
8 0.08779258838295936
9 0.08199785630404949
10 0.07704121413826942
11 0.07276330365240574
12 0.06907484836131335
13 0.06584368328005076
14 0.06295975042134523
15 0.06039590438082814
16 0.058096024941653016

Pytorch 连体网络不收敛

Pytorch Siamese Network not converging

python

convergence

pytorch

siamese-network