反向传播 - 神经网络 - 衍生

backpropagation - neural network - derivate

我正在研究反向传播,但我不明白为什么我们需要划分 'dW_curr' 通过 'm'。我看到的每个代码都这样做,但为什么呢?如果我们使用交叉熵作为我们的损失函数或每个单独的损失函数,我们只需要进行这种划分?

下一个代码来自https://towardsdatascience.com/lets-code-a-neural-network-in-plain-numpy-ae7e74410795

def single_layer_backward_propagation(dA_curr, W_curr, b_curr, Z_curr, A_prev, activation="relu"):
    m = A_prev.shape[1]
    
    if activation is "relu":
        backward_activation_func = relu_backward
    elif activation is "sigmoid":
        backward_activation_func = sigmoid_backward
    else:
        raise Exception('Non-supported activation function')
    
    dZ_curr = backward_activation_func(dA_curr, Z_curr)
    dW_curr = np.dot(dZ_curr, A_prev.T) / m
    db_curr = np.sum(dZ_curr, axis=1, keepdims=True) / m
    dA_prev = np.dot(W_curr.T, dZ_curr)

    return dA_prev, dW_curr, db_curr

我强烈建议,如果你的目标是理解,那么不要遵循工程教程,而是数学推导,例如Simon Haykin 的书“Neural networks and learning machines”中的那个。

对于你的具体问题,损失被定义为对你的样本的期望。对这种期望的经验估计只是一个平均值。导数是线性算子,意味着均值的导数是导数的均值。您的“除以 m”只不过是相应导数的平均值。

你的损失是交叉熵还是 L2 并不重要,重要的是什么是聚合,如果你试图最小化期望值,你几乎肯定会最终取平均值(即除以样本数) 无处不在(除非你没有使用 Monte Carlo 估算器,但这种情况很少见)。