什么时候应该在机器学习中进行特征缩放或归一化？

When should I do feature scaling or normalisation in machine learning?

我有一个包含 92 个特征的训练特征集。其中 91 个特征是 1 或 0 的布尔值。但是 1 个特征是数字，它在 3-2000 之间变化。

如果我对第 92 个特征进行特征缩放会更好吗？

如果是，最好的方法是什么？我正在使用 Python.

有时，这在很大程度上取决于您要使用哪种算法进行预测。假设如果您正在使用 SVM 并为此使用高斯核，并且您没有在输入上使用特征缩放，那么您最终可能会得出错误的假设，并且您的大特征将支配其他较小的特征。通常，特征缩放始终是控制输入变化的最佳方法，它也使算法计算速度更快（或者换句话说收敛到最优最小值）。