在神经网络中，为什么偏差被视为 "b" 参数或额外的 "wx" 神经元？

In neural networks, why is the bias seen as either a "b" parameter or as an additional "wx" neuron?

换句话说，在 sigmoid 之前的神经元求和公式中将偏差切换为 b_j 或额外的 w_ij*x_i 的主要原因是什么？表现？ 哪种方法最好，为什么？

注：j是实际层的神经元，i是下层的神经元。

注意：这里要求best方法意义不大。这是完全相同事物的两种不同数学符号。

但是，将偏差拟合为另一个权重允许您将总和重写为观察到的特征向量 x_d 与权重向量 w.

的标量积

您是否尝试过根据最小二乘法计算导数w.r.t w以获得最优w？您会注意到此计算在矢量化符号中变得更加清晰。

除此之外：在许多高级编程语言中，矢量化计算的效率明显高于非矢量化计算。所以性能也很重要，至少在某些语言中是这样。