默认情况下始终标准化所有功能是不是一个坏主意?
Is it a bad idea to always standardize all features by default?
是否有理由不在默认情况下标准化所有功能?我意识到它可能不是必需的,例如决策树,但对于某些算法,如 KNN、SVM 和 K-Means。经常对我的所有功能执行此操作会有任何危害吗?
另外,似乎标准化比规范化更可取?这在什么时候不是一个好主意?
根据我的经验,当您的数据集包含具有非常不同范围的特征(例如年龄与每所房子的美元数)时,标准化和规范化会产生最大(积极)的影响
根据我的专业经验,在使用汽车传感器(时间序列)进行项目时,我注意到归一化(最小-最大缩放比例),即使在神经网络的情况下应用时,也有对培训过程和最终结果产生负面影响。不可否认,传感器特征(值)是否非常接近彼此的值。考虑到我正在使用时间序列,这是一个非常有趣的结果,其中大多数数据科学家默认使用缩放(它们最终是神经网络,符合理论)。
原则上,当数据集中有特定异常值时,最好应用标准化,因为标准化会产生较小的标准偏差值。据我所知,这是标准化比规范化更受青睐的主要原因,它的鲁棒性优于异常值。
三年前,如果有人问我这个问题,我会说“标准化”是必经之路。现在我说,遵循原则,但在得出某个结论之前先检验每个假设。
是否有理由不在默认情况下标准化所有功能?我意识到它可能不是必需的,例如决策树,但对于某些算法,如 KNN、SVM 和 K-Means。经常对我的所有功能执行此操作会有任何危害吗?
另外,似乎标准化比规范化更可取?这在什么时候不是一个好主意?
根据我的经验,当您的数据集包含具有非常不同范围的特征(例如年龄与每所房子的美元数)时,标准化和规范化会产生最大(积极)的影响
根据我的专业经验,在使用汽车传感器(时间序列)进行项目时,我注意到归一化(最小-最大缩放比例),即使在神经网络的情况下应用时,也有对培训过程和最终结果产生负面影响。不可否认,传感器特征(值)是否非常接近彼此的值。考虑到我正在使用时间序列,这是一个非常有趣的结果,其中大多数数据科学家默认使用缩放(它们最终是神经网络,符合理论)。
原则上,当数据集中有特定异常值时,最好应用标准化,因为标准化会产生较小的标准偏差值。据我所知,这是标准化比规范化更受青睐的主要原因,它的鲁棒性优于异常值。
三年前,如果有人问我这个问题,我会说“标准化”是必经之路。现在我说,遵循原则,但在得出某个结论之前先检验每个假设。