关于反向传播和 sigmoid 函数
about backpropagation and sigmoid function
我一直在阅读这本关于 ANN 的电子书:https://www4.rgu.ac.uk/files/chapter3%20-%20bp.pdf
并对sigmoid函数计算errorB的效果产生了疑问。文中说,如果我有阈值神经元,我可以使用:
目标输出
但是因为我有一个 sigmoid 函数,所以我应该添加:
输出(1-输出)
最后是:
ErrorB=OutputB(1-OutputB)(TargetB-OutputB)
我的意思是为什么我应该添加 O(1-O) 的部分,我尝试过不同的值,但我真的不明白为什么它应该是那样的。
有什么帮助吗?
谢谢
之所以如此,是因为Output(1-Output)
是sigmoid函数(简化)的导数。一般来说,这部分是基于导数的,你可以尝试不同的函数(来自 sigmoid),然后你也必须使用它们的导数来获得合适的学习率。
如果你愿意,可以看看我的实现(它远非完美,但也许你会从中得到一些想法;)),这是我在大学里做的一个简单项目 - https://github.com/kelostrada/neuron-network
正如 Kelu 所说,方程的那部分基于传递函数(在本例中为 sigmoid)的导数。要了解为什么需要导数,您需要了解 delta rule 的工作原理(*):
您的总体目标是使用梯度下降法最大限度地减少网络输出中的误差。 Gradient descent 本身试图通过采取与梯度负值成比例的步骤来找到误差函数 (E) 的最小值。梯度只是导数,你在数学上使用导数的原因是梯度指向最大增长率的方向(错误)功能。结论:既然你想最小化错误,你就采用相反的渐变方式。
这是使用渐变的直观原因。如果你想要数学推导,你应该检查this basic wiki article(附加注释,因为它没有在任何地方提到:文章中的g'(x)是g(x)的一阶导数)
可以使用其他传递函数,例如线性(在这种情况下没有 g'(x) 项,因为导数只是一个常数)或双曲正切,在这种情况下导数又不同了。
(*) 方程是从下面的方程推导出来的,你从最小化输出的误差开始:
我一直在阅读这本关于 ANN 的电子书:https://www4.rgu.ac.uk/files/chapter3%20-%20bp.pdf
并对sigmoid函数计算errorB的效果产生了疑问。文中说,如果我有阈值神经元,我可以使用:
目标输出
但是因为我有一个 sigmoid 函数,所以我应该添加:
输出(1-输出)
最后是:
ErrorB=OutputB(1-OutputB)(TargetB-OutputB)
我的意思是为什么我应该添加 O(1-O) 的部分,我尝试过不同的值,但我真的不明白为什么它应该是那样的。
有什么帮助吗?
谢谢
之所以如此,是因为Output(1-Output)
是sigmoid函数(简化)的导数。一般来说,这部分是基于导数的,你可以尝试不同的函数(来自 sigmoid),然后你也必须使用它们的导数来获得合适的学习率。
如果你愿意,可以看看我的实现(它远非完美,但也许你会从中得到一些想法;)),这是我在大学里做的一个简单项目 - https://github.com/kelostrada/neuron-network
正如 Kelu 所说,方程的那部分基于传递函数(在本例中为 sigmoid)的导数。要了解为什么需要导数,您需要了解 delta rule 的工作原理(*):
您的总体目标是使用梯度下降法最大限度地减少网络输出中的误差。 Gradient descent 本身试图通过采取与梯度负值成比例的步骤来找到误差函数 (E) 的最小值。梯度只是导数,你在数学上使用导数的原因是梯度指向最大增长率的方向(错误)功能。结论:既然你想最小化错误,你就采用相反的渐变方式。
这是使用渐变的直观原因。如果你想要数学推导,你应该检查this basic wiki article(附加注释,因为它没有在任何地方提到:文章中的g'(x)是g(x)的一阶导数)
可以使用其他传递函数,例如线性(在这种情况下没有 g'(x) 项,因为导数只是一个常数)或双曲正切,在这种情况下导数又不同了。
(*) 方程是从下面的方程推导出来的,你从最小化输出的误差开始: