在神经网络中,为什么偏差被视为 "b" 参数或额外的 "wx" 神经元?
In neural networks, why is the bias seen as either a "b" parameter or as an additional "wx" neuron?
换句话说,在 sigmoid 之前的神经元求和公式中将偏差切换为 b_j
或额外的 w_ij*x_i
的主要原因是什么?表现? 哪种方法最好,为什么?
注:j
是实际层的神经元,i
是下层的神经元。
注意:这里要求best
方法意义不大。这是完全相同事物的两种不同数学符号。
但是,将偏差拟合为另一个权重允许您将总和重写为观察到的特征向量 x_d
与权重向量 w
.
的标量积
您是否尝试过根据最小二乘法计算导数w.r.t w
以获得最优w
?您会注意到此计算在矢量化符号中变得更加清晰。
除此之外:在许多高级编程语言中,矢量化计算的效率明显高于非矢量化计算。所以性能也很重要,至少在某些语言中是这样。
换句话说,在 sigmoid 之前的神经元求和公式中将偏差切换为 b_j
或额外的 w_ij*x_i
的主要原因是什么?表现? 哪种方法最好,为什么?
注:j
是实际层的神经元,i
是下层的神经元。
注意:这里要求best
方法意义不大。这是完全相同事物的两种不同数学符号。
但是,将偏差拟合为另一个权重允许您将总和重写为观察到的特征向量 x_d
与权重向量 w
.
您是否尝试过根据最小二乘法计算导数w.r.t w
以获得最优w
?您会注意到此计算在矢量化符号中变得更加清晰。
除此之外:在许多高级编程语言中,矢量化计算的效率明显高于非矢量化计算。所以性能也很重要,至少在某些语言中是这样。