矢量化线性回归
Vectorized linear regression
这是我尝试仅使用 numpy 和线性代数执行线性回归的尝试:
def linear_function(w , x , b):
return np.dot(w , x) + b
x = np.array([[1, 1,1],[0, 0,0]])
y = np.array([0,1])
w = np.random.uniform(-1,1,(1 , 3))
print(w)
learning_rate = .0001
xT = x.T
yT = y.T
for i in range(30000):
h_of_x = linear_function(w , xT , 1)
loss = h_of_x - yT
if i % 10000 == 0:
print(loss , w)
w = w + np.multiply(-learning_rate , loss)
linear_function(w , x , 1)
这会导致错误:
ValueError Traceback (most recent call last)
<ipython-input-137-130a39956c7f> in <module>()
24 if i % 10000 == 0:
25 print(loss , w)
---> 26 w = w + np.multiply(-learning_rate , loss)
27
28 linear_function(w , x , 1)
ValueError: operands could not be broadcast together with shapes (1,3) (1,2)
这似乎适用于降低训练集维度:
import numpy as np
def linear_function(w , x , b):
return np.dot(w , x) + b
x = np.array([[1, 1],[0, 0]])
y = np.array([0,1])
w = np.random.uniform(-1,1,(1 , 2))
print(w)
learning_rate = .0001
xT = x.T
yT = y.T
for i in range(30000):
h_of_x = linear_function(w , xT , 1)
loss = h_of_x - yT
if i % 10000 == 0:
print(loss , w)
w = w + np.multiply(-learning_rate , loss)
linear_function(w , x , 1)
print(linear_function(w , x[0] , 1))
print(linear_function(w , x[1] , 1))
哪个 returns :
[[ 0.68255806 -0.49717912]]
[[ 1.18537894 0. ]] [[ 0.68255806 -0.49717912]]
[[ 0.43605474 0. ]] [[-0.06676614 -0.49717912]]
[[ 0.16040755 0. ]] [[-0.34241333 -0.49717912]]
[ 0.05900769]
[ 1.]
[ 0.05900769] & [ 1.]
接近训练示例,因此看来此实现是正确的。抛出错误的实现有什么问题?我没有正确实现从 2 -> 3 的维度扩展?
我在下面列出了问题:
你的数组形状不一致。这可能会导致 broadcasting/dots 出现问题,尤其是在梯度下降期间。修复您的初始化。我还建议用 b
扩充 w
并用一列扩充 X
。
你的损失函数和梯度计算对我来说似乎不对。一般来说,不推荐使用曼哈顿距离作为损失函数,因为它不是一个足够的距离度量。我会使用欧氏距离并尝试最小化平方和(这称为 OLS regression)。然后我们进行梯度计算如下。
您的更新规则将根据(2)相应更改。
确保为您的代码设置停止条件。您不想超过最佳值。通常,当梯度变化不大时就应该停止。
完整列表:
# input, augmented
x = np.array([[1, 1, 1], [0, 0, 0]])
x = np.column_stack((np.ones(len(x)), x))
# predictions
y = np.array([[0, 1]])
# weights, augmented with bias
w = np.random.uniform(-1, 1, (1, 4))
learning_rate = .0001
loss_old = np.inf
for i in range(30000):
h_of_x = w.dot(x.T)
loss = ((h_of_x - y) ** 2).sum()
if abs(loss_old - loss) < 1e-5:
break
w = w - learning_rate * (h_of_x - y).dot(x)
loss_old = loss
其他Recommendations/Enhancements
接下来,考虑这里正则化的使用。 L1 (ridge) 和 L2 (lasso) 都是不错的选择。
最后,线性回归有一个封闭形式的解决方案,保证收敛于局部最优(梯度下降只保证 局部 最优)。这很快,但计算量大(因为它涉及计算逆)。查看权衡 here。
w = y.dot(np.linalg.inv(x.dot(x.T)).dot(x))
当xT.x不可逆时,你需要正则化。
请记住,线性回归只能对 线性 决策边界建模。如果您确信您的实现是正确的,并且您的损失仍然很糟糕,则您的数据可能无法适应其当前向量-space,因此您将需要非线性基函数对其进行转换(这是有效的非线性回归)。
这是我尝试仅使用 numpy 和线性代数执行线性回归的尝试:
def linear_function(w , x , b):
return np.dot(w , x) + b
x = np.array([[1, 1,1],[0, 0,0]])
y = np.array([0,1])
w = np.random.uniform(-1,1,(1 , 3))
print(w)
learning_rate = .0001
xT = x.T
yT = y.T
for i in range(30000):
h_of_x = linear_function(w , xT , 1)
loss = h_of_x - yT
if i % 10000 == 0:
print(loss , w)
w = w + np.multiply(-learning_rate , loss)
linear_function(w , x , 1)
这会导致错误:
ValueError Traceback (most recent call last)
<ipython-input-137-130a39956c7f> in <module>()
24 if i % 10000 == 0:
25 print(loss , w)
---> 26 w = w + np.multiply(-learning_rate , loss)
27
28 linear_function(w , x , 1)
ValueError: operands could not be broadcast together with shapes (1,3) (1,2)
这似乎适用于降低训练集维度:
import numpy as np
def linear_function(w , x , b):
return np.dot(w , x) + b
x = np.array([[1, 1],[0, 0]])
y = np.array([0,1])
w = np.random.uniform(-1,1,(1 , 2))
print(w)
learning_rate = .0001
xT = x.T
yT = y.T
for i in range(30000):
h_of_x = linear_function(w , xT , 1)
loss = h_of_x - yT
if i % 10000 == 0:
print(loss , w)
w = w + np.multiply(-learning_rate , loss)
linear_function(w , x , 1)
print(linear_function(w , x[0] , 1))
print(linear_function(w , x[1] , 1))
哪个 returns :
[[ 0.68255806 -0.49717912]]
[[ 1.18537894 0. ]] [[ 0.68255806 -0.49717912]]
[[ 0.43605474 0. ]] [[-0.06676614 -0.49717912]]
[[ 0.16040755 0. ]] [[-0.34241333 -0.49717912]]
[ 0.05900769]
[ 1.]
[ 0.05900769] & [ 1.]
接近训练示例,因此看来此实现是正确的。抛出错误的实现有什么问题?我没有正确实现从 2 -> 3 的维度扩展?
我在下面列出了问题:
你的数组形状不一致。这可能会导致 broadcasting/dots 出现问题,尤其是在梯度下降期间。修复您的初始化。我还建议用
b
扩充w
并用一列扩充X
。你的损失函数和梯度计算对我来说似乎不对。一般来说,不推荐使用曼哈顿距离作为损失函数,因为它不是一个足够的距离度量。我会使用欧氏距离并尝试最小化平方和(这称为 OLS regression)。然后我们进行梯度计算如下。
您的更新规则将根据(2)相应更改。
确保为您的代码设置停止条件。您不想超过最佳值。通常,当梯度变化不大时就应该停止。
完整列表:
# input, augmented
x = np.array([[1, 1, 1], [0, 0, 0]])
x = np.column_stack((np.ones(len(x)), x))
# predictions
y = np.array([[0, 1]])
# weights, augmented with bias
w = np.random.uniform(-1, 1, (1, 4))
learning_rate = .0001
loss_old = np.inf
for i in range(30000):
h_of_x = w.dot(x.T)
loss = ((h_of_x - y) ** 2).sum()
if abs(loss_old - loss) < 1e-5:
break
w = w - learning_rate * (h_of_x - y).dot(x)
loss_old = loss
其他Recommendations/Enhancements
接下来,考虑这里正则化的使用。 L1 (ridge) 和 L2 (lasso) 都是不错的选择。
最后,线性回归有一个封闭形式的解决方案,保证收敛于局部最优(梯度下降只保证 局部 最优)。这很快,但计算量大(因为它涉及计算逆)。查看权衡 here。
w = y.dot(np.linalg.inv(x.dot(x.T)).dot(x))
当xT.x不可逆时,你需要正则化。
请记住,线性回归只能对 线性 决策边界建模。如果您确信您的实现是正确的,并且您的损失仍然很糟糕,则您的数据可能无法适应其当前向量-space,因此您将需要非线性基函数对其进行转换(这是有效的非线性回归)。