在反向传播中更新前几层的权重
Updating weight in previous layers in Backpropagation
我正在尝试创建一个简单的神经网络并坚持在两层中更新第一层的权重。我想我对 w2 所做的第一次更新是正确的,因为我从反向传播算法中学到了什么。我现在不包括偏见。但是我们如何更新第一层权重是我卡住的地方。
import numpy as np
np.random.seed(10)
def sigmoid(x):
return 1.0/(1+ np.exp(-x))
def sigmoid_derivative(x):
return x * (1.0 - x)
def cost_function(output, y):
return (output - y) ** 2
x = 2
y = 4
w1 = np.random.rand()
w2 = np.random.rand()
h = sigmoid(w1 * x)
o = sigmoid(h * w2)
cost_function_output = cost_function(o, y)
prev_w2 = w2
w2 -= 0.5 * 2 * cost_function_output * h * sigmoid_derivative(o) # 0.5 being learning rate
w1 -= 0 # What do you update this to?
print(cost_function_output)
我无法对你的问题发表评论,所以写在这里。
首先,您的 sigmoid_derivative 函数是错误的。
sigmoid(x*y) w.r.t x is = sigmoid(x*y)*(1-sigmoid(x*y))*y
.
的导数
编辑:(删除了不必要的文字)
我们需要 dW1 和 dW2(它们分别是 dJ/dW1
和 dJ/dW
(偏导数)。
J = (o - y)^2
因此 dJ/do = 2*(o - y)
现在,dW2
dJ/dW2 = dJ/do * do/dW2 (chain rule)
dJ/dW2 = (2*(o - y)) * (o*(1 - o)*h)
dW2 (equals above equation)
W2 -= learning_rate*dW2
现在,对于 dW1
dJ/dh = dJ/do * do/dh = (2*(o - y)) * (o*(1 - o)*W2
dJ/dW1 = dJ/dh * dh/dW1 = ((2*(o - y)) * (o*(1 - o)*W2)) * (h*(1- h)*x)
dW1 (equals above equation)
W1 -= learning_rate*dW2
PS: 尝试做一个计算图,求导数变得容易很多。 (如果你不知道这个,在线阅读)
我正在尝试创建一个简单的神经网络并坚持在两层中更新第一层的权重。我想我对 w2 所做的第一次更新是正确的,因为我从反向传播算法中学到了什么。我现在不包括偏见。但是我们如何更新第一层权重是我卡住的地方。
import numpy as np
np.random.seed(10)
def sigmoid(x):
return 1.0/(1+ np.exp(-x))
def sigmoid_derivative(x):
return x * (1.0 - x)
def cost_function(output, y):
return (output - y) ** 2
x = 2
y = 4
w1 = np.random.rand()
w2 = np.random.rand()
h = sigmoid(w1 * x)
o = sigmoid(h * w2)
cost_function_output = cost_function(o, y)
prev_w2 = w2
w2 -= 0.5 * 2 * cost_function_output * h * sigmoid_derivative(o) # 0.5 being learning rate
w1 -= 0 # What do you update this to?
print(cost_function_output)
我无法对你的问题发表评论,所以写在这里。
首先,您的 sigmoid_derivative 函数是错误的。
sigmoid(x*y) w.r.t x is = sigmoid(x*y)*(1-sigmoid(x*y))*y
.
编辑:(删除了不必要的文字)
我们需要 dW1 和 dW2(它们分别是 dJ/dW1
和 dJ/dW
(偏导数)。
J = (o - y)^2
因此 dJ/do = 2*(o - y)
现在,dW2
dJ/dW2 = dJ/do * do/dW2 (chain rule)
dJ/dW2 = (2*(o - y)) * (o*(1 - o)*h)
dW2 (equals above equation)
W2 -= learning_rate*dW2
现在,对于 dW1
dJ/dh = dJ/do * do/dh = (2*(o - y)) * (o*(1 - o)*W2
dJ/dW1 = dJ/dh * dh/dW1 = ((2*(o - y)) * (o*(1 - o)*W2)) * (h*(1- h)*x)
dW1 (equals above equation)
W1 -= learning_rate*dW2
PS: 尝试做一个计算图,求导数变得容易很多。 (如果你不知道这个,在线阅读)