什么时候应该在机器学习中进行特征缩放或归一化?

When should I do feature scaling or normalisation in machine learning?

我有一个包含 92 个特征的训练特征集。其中 91 个特征是 1 或 0 的布尔值。但是 1 个特征是数字,它在 3-2000 之间变化。

如果我对第 92 个特征进行特征缩放会更好吗?

如果是,最好的方法是什么?我正在使用 Python.

有时,这在很大程度上取决于您要使用哪种算法进行预测。假设如果您正在使用 SVM 并为此使用高斯核,并且您没有在输入上使用特征缩放,那么您最终可能会得出错误的假设,并且您的大特征将支配其他较小的特征。通常,特征缩放始终是控制输入变化的最佳方法,它也使算法计算速度更快(或者换句话说收敛到最优最小值)。