使用相同数据训练的两个 NN 的显着差异 "weights" 和 "bias"

Question

我最近了解到神经网络的神奇世界。我开始关注 Neural Networks and Deep Learning，它实现了一个神经网络来识别手写数字。它实现了一个 3 层网络（1 个输入、1 个隐藏层和 1 个输出层）并使用 MNIST 数据集进行训练。

我刚刚发现，具有相似层 [784,30,10] 架构并使用相同数据集训练的两个 NN 的权重矩阵非常不同。偏差矩阵也是如此。

一般直觉告诉我们，由于我们使用多个时期并随机化每个时期的数据，因此两个 NN 的权重矩阵应该收敛到相似的值。但结果却大不相同。可能是相同的原因吗？

这里是NN1的前几个权重：

[array([[-1.2129184 , -0.08418661, -1.58413842, ...,  0.14350188,
          1.49436597, -1.71864906],
        [ 0.25485346, -0.1795214 ,  0.14175609, ...,  0.4222159 ,
          1.28005992, -1.17403326],
        [ 1.09796094,  0.66119858,  1.12603969, ...,  0.23220572,
         -1.66863656,  0.02761243],.....

这是 NN2 的前几个权重，具有相同的层数并使用相同的训练数据、epochs 和 eta 进行训练。

[array([[-0.87264811,  0.34475347, -0.04876076, ..., -0.074056  ,
          0.10218085, -0.50177084],
        [-1.96657944, -0.35619652,  1.10898861, ..., -0.53325862,
         -1.52680967,  0.26800431],
        [-1.24731848,  0.13278103, -1.70306514, ...,  0.07964225,
         -0.88724451, -0.40311485],
        ...,

Answer 1

两个NN的权重肯定不会一样，除非是重大巧合

这是因为您分配的初始权重是随机的，就像您在问题中提到的那样'the data at each epoch is randomly chosen'。

Answer 2

General intuition says that since we are using multiple epochs and randomizing the data at each epoch, the weight matrix of both NN should converge to similar values

不幸的是，这不是真的。这是因为神经网络的损失情况非常复杂，有很多泛化能力很好的局部最小值。由于初始化和训练过程的随机性，您基本上可以保证以良好的性能收敛到一组不同的参数。

另请注意，随机性不足以产生不同的结果。例如，无论样本的初始值和顺序如何，线性回归总是会收敛到相同的参数。只有 convex 损失函数才能保证收敛到相同的参数。

使用相同数据训练的两个 NN 的显着差异 "weights" 和 "bias"

Significantly different "weights" and "bias" of two NN trained using same data

python

machine-learning

backpropagation

neural-network

deep-learning