简单神经网络的矢量化实现中的反向传播问题

Question

我一直在学习 UFLDL tutorials.In 简单神经网络的矢量化实现，教程建议这样做的一种方法是遍历整个训练集而不是迭代方法。在反向传播部分，这意味着替换：

 gradW1 = zeros(size(W1));
 gradW2 = zeros(size(W2)); 

for i=1:m,
  delta3 = -(y(:,i) - h(:,i)) .* fprime(z3(:,i)); 
  delta2 = W2'*delta3(:,i) .* fprime(z2(:,i));

  gradW2 = gradW2 + delta3*a2(:,i)';
  gradW1 = gradW1 + delta2*a1(:,i)'; 
end;

和

delta3 = -(y - h) .* fprime(z3)
delta2 = W2'*delta3().*fprime(z2)

gradW2 = delta3*a2'
gradW1 = delta2*a1' 
//apply weight correction now that all gradients
//are computed

有关符号和算法的信息，请访问 this page。

然而，此实现在 gradW1 和 gradW2 中产生了异常大的值。这似乎是我在处理每个训练输入时没有更新权重的结果（在另一个早期的工作实施中对此进行了测试）。我说得对吗？通过阅读教程，似乎有一种方法可以使这项工作有效，但我无法想出有效的方法。

Answer 1

反向传播有两种实现方式：批量算法和在线训练算法。最初您描述了在线训练算法。然后您发现并尝试实施批量训练算法，该算法有时会产生您描述的副作用。在您的情况下，将学习样本分成较小的块并在其上学习可能是个好主意。

简单神经网络的矢量化实现中的反向传播问题

Trouble with backpropogation in a vectorized implementation of a simple neural network

matlab

neural-network