梯度下降 - 我可以绘制我将最小化的函数吗?线性回归
Gradient descent - can I draw function that I will minimize? Linear regression
我是机器学习的新手。我从使用梯度下降的线性回归开始。我有 python 代码,我是这样理解的。我的问题是:梯度下降算法最小化函数,我可以绘制这个函数吗?我想看看最小值的函数是什么样的。可能吗?
我的代码:
import matplotlib.pyplot as plt import numpy as np
def sigmoid_activation(x):
return 1.0 / (1 + np.exp(-x))
X = np.array([
[2.13, 5.49],
[8.35, 6.74],
[8.17, 5.79],
[0.62, 8.54],
[2.74, 6.92] ])
y = [0, 1, 1, 0, 0]
xdata = [row[0] for row in X] ydata = [row[1] for row in X]
X = np.c_[np.ones((X.shape[0])), X] W = np.random.uniform(size=(X.shape[1], ))
lossHistory = []
for epoch in np.arange(0, 5):
preds = sigmoid_activation(X.dot(W))
error = preds - y
loss = np.sum(error ** 2)
lossHistory.append(loss)
gradient = X.T.dot(error) / X.shape[0]
W += - 0.44 * gradient
plt.scatter(xdata, ydata) plt.show()
plt.plot(np.arange(0, 5), lossHistory) plt.show()
for i in np.random.choice(5, 5):
activation = sigmoid_activation(X[i].dot(W))
label = 0 if activation < 0.5 else 1
print("activation={:.4f}; predicted_label={}, true_label={}".format(
activation, label, y[i]))
Y = (-W[0] - (W[1] * X)) / W[2]
plt.scatter(X[:, 1], X[:, 2], c=y) plt.plot(X, Y, "r-") plt.show()
冒着明显的风险...您可以简单地使用 matplotlib 绘制 lossHistory
。还是我遗漏了什么?
EDIT:显然 OP 询问梯度下降 (GD) 正在最小化什么。我会尽量在这里回答,希望能回答原问题。
GD 算法是一种在参数 space 中寻找函数最小值的通用算法。在你的情况下(这就是神经网络通常使用的方式)你想要找到最小的损失函数:MSE(均方误差)。您实现 GD 算法更新权重,就像您对
所做的那样
gradient = X.T.dot(error) / X.shape[0]
W += - 0.44 * gradient
梯度只是损失函数 (MSE) 相对于权重的偏导数。有效地最小化损失函数(MSE)也是如此。然后你用 0.44 的学习率更新你的权重。
然后你只需将损失函数的值保存在数组
loss = np.sum(error ** 2)
lossHistory.append(loss)
因此 lossHistory
数组包含你的成本(或损失)函数,你可以绘制它来检查你的学习过程。该图应该显示出一些减少的东西。这个解释对你有帮助吗?
最好的,
翁贝托
我是机器学习的新手。我从使用梯度下降的线性回归开始。我有 python 代码,我是这样理解的。我的问题是:梯度下降算法最小化函数,我可以绘制这个函数吗?我想看看最小值的函数是什么样的。可能吗? 我的代码:
import matplotlib.pyplot as plt import numpy as np
def sigmoid_activation(x):
return 1.0 / (1 + np.exp(-x))
X = np.array([
[2.13, 5.49],
[8.35, 6.74],
[8.17, 5.79],
[0.62, 8.54],
[2.74, 6.92] ])
y = [0, 1, 1, 0, 0]
xdata = [row[0] for row in X] ydata = [row[1] for row in X]
X = np.c_[np.ones((X.shape[0])), X] W = np.random.uniform(size=(X.shape[1], ))
lossHistory = []
for epoch in np.arange(0, 5):
preds = sigmoid_activation(X.dot(W))
error = preds - y
loss = np.sum(error ** 2)
lossHistory.append(loss)
gradient = X.T.dot(error) / X.shape[0]
W += - 0.44 * gradient
plt.scatter(xdata, ydata) plt.show()
plt.plot(np.arange(0, 5), lossHistory) plt.show()
for i in np.random.choice(5, 5):
activation = sigmoid_activation(X[i].dot(W))
label = 0 if activation < 0.5 else 1
print("activation={:.4f}; predicted_label={}, true_label={}".format(
activation, label, y[i]))
Y = (-W[0] - (W[1] * X)) / W[2]
plt.scatter(X[:, 1], X[:, 2], c=y) plt.plot(X, Y, "r-") plt.show()
冒着明显的风险...您可以简单地使用 matplotlib 绘制 lossHistory
。还是我遗漏了什么?
EDIT:显然 OP 询问梯度下降 (GD) 正在最小化什么。我会尽量在这里回答,希望能回答原问题。
GD 算法是一种在参数 space 中寻找函数最小值的通用算法。在你的情况下(这就是神经网络通常使用的方式)你想要找到最小的损失函数:MSE(均方误差)。您实现 GD 算法更新权重,就像您对
所做的那样gradient = X.T.dot(error) / X.shape[0]
W += - 0.44 * gradient
梯度只是损失函数 (MSE) 相对于权重的偏导数。有效地最小化损失函数(MSE)也是如此。然后你用 0.44 的学习率更新你的权重。 然后你只需将损失函数的值保存在数组
loss = np.sum(error ** 2)
lossHistory.append(loss)
因此 lossHistory
数组包含你的成本(或损失)函数,你可以绘制它来检查你的学习过程。该图应该显示出一些减少的东西。这个解释对你有帮助吗?
最好的, 翁贝托