反向传播 - 神经网络 - 衍生

Question

我正在研究反向传播，但我不明白为什么我们需要划分 'dW_curr' 通过 'm'。我看到的每个代码都这样做，但为什么呢？如果我们使用交叉熵作为我们的损失函数或每个单独的损失函数，我们只需要进行这种划分？

下一个代码来自https://towardsdatascience.com/lets-code-a-neural-network-in-plain-numpy-ae7e74410795。

def single_layer_backward_propagation(dA_curr, W_curr, b_curr, Z_curr, A_prev, activation="relu"):
    m = A_prev.shape[1]
    
    if activation is "relu":
        backward_activation_func = relu_backward
    elif activation is "sigmoid":
        backward_activation_func = sigmoid_backward
    else:
        raise Exception('Non-supported activation function')
    
    dZ_curr = backward_activation_func(dA_curr, Z_curr)
    dW_curr = np.dot(dZ_curr, A_prev.T) / m
    db_curr = np.sum(dZ_curr, axis=1, keepdims=True) / m
    dA_prev = np.dot(W_curr.T, dZ_curr)

    return dA_prev, dW_curr, db_curr

Answer 1

我强烈建议，如果你的目标是理解，那么不要遵循工程教程，而是数学推导，例如Simon Haykin 的书“Neural networks and learning machines”中的那个。

对于你的具体问题，损失被定义为对你的样本的期望。对这种期望的经验估计只是一个平均值。导数是线性算子，意味着均值的导数是导数的均值。您的“除以 m”只不过是相应导数的平均值。

你的损失是交叉熵还是 L2 并不重要，重要的是什么是聚合，如果你试图最小化期望值，你几乎肯定会最终取平均值（即除以样本数) 无处不在（除非你没有使用 Monte Carlo 估算器，但这种情况很少见）。

反向传播 - 神经网络 - 衍生

backpropagation - neural network - derivate

python

math

backpropagation

neural-network