激活函数的导数与偏导数 wrt。损失函数
Derivative of activation function vs partial derivative wrt. loss function
人工智能中的一些术语让我感到困惑。反向传播中使用的导数函数是激活函数的导数或者损失函数的导数?
这些术语令人困惑:行为的导数。函数,偏导数wrt。损失函数??
我还是没弄对。
当你优化一个模型时,你定义了一个损失函数。这通常表示关于某些训练数据的错误。
通常使用基于梯度的优化来最小化此错误。通常,随机梯度下降 (SGD) 和相关方法(Adam、Adagrad 等)。
损失函数的梯度,是由损失对模型中每个权重的偏导数组成的向量。
在每次迭代中,权重都会根据梯度的方向进行更新(记住我们正在最小化)。
我猜你可能会混淆的原因是因为由于链式法则,在计算损失函数的梯度时,需要区分激活函数。但请记住,这是因为链式法则。
人工智能中的一些术语让我感到困惑。反向传播中使用的导数函数是激活函数的导数或者损失函数的导数?
这些术语令人困惑:行为的导数。函数,偏导数wrt。损失函数??
我还是没弄对。
当你优化一个模型时,你定义了一个损失函数。这通常表示关于某些训练数据的错误。
通常使用基于梯度的优化来最小化此错误。通常,随机梯度下降 (SGD) 和相关方法(Adam、Adagrad 等)。
损失函数的梯度,是由损失对模型中每个权重的偏导数组成的向量。
在每次迭代中,权重都会根据梯度的方向进行更新(记住我们正在最小化)。
我猜你可能会混淆的原因是因为由于链式法则,在计算损失函数的梯度时,需要区分激活函数。但请记住,这是因为链式法则。