深度学习数据归一化
Deep Learning Data Normalization
我正在为我的模型处理不同类型的财务数据输入,我想了解更多关于它们标准化的信息。
特别是,在使用一些技术指标时,我将它们标准化为介于 0 和 1 之间的范围。
其他人被归一化为介于 -1 和 1 之间的范围。
您对混合归一化数据有何经验?
这两个范围是否可以接受,或者训练数据集只有一个范围是否总是更好,即 [0 1]?
需要注意的是,当我们讨论数据归一化时,通常指的是连续数据的归一化。分类数据(通常)不需要前者。
此外,并非所有 ML 方法都需要您对数据进行规范化才能正常运行。此类方法的示例包括随机森林和梯度提升机。然而,其他人会这样做。例如,支持向量机和神经网络。
输入数据规范化的原因取决于方法本身。对于 SVM,进行数据规范化以确保输入特征在影响模型决策方面具有同等重要性。对于神经网络,我们对数据进行归一化处理,让梯度下降过程顺利收敛。
最后,为了回答您的问题,如果您正在处理连续数据并使用神经网络对数据建模,只需确保归一化数据的值彼此接近(即使它们不相同范围),因为这决定了梯度下降过程收敛的难易程度。如果您使用的是 SVM,最好将数据归一化到一个范围内,这样所有特征都可以通过 SVM 使用的相似性/距离函数赋予同等重要性。在其他情况下,无论范围如何,都可以完全消除对数据规范化的需求。最终,这取决于您使用的建模技术!
感谢 @user3666197 在评论中提供有用的反馈。
我正在为我的模型处理不同类型的财务数据输入,我想了解更多关于它们标准化的信息。
特别是,在使用一些技术指标时,我将它们标准化为介于 0 和 1 之间的范围。
其他人被归一化为介于 -1 和 1 之间的范围。
您对混合归一化数据有何经验?
这两个范围是否可以接受,或者训练数据集只有一个范围是否总是更好,即 [0 1]?
需要注意的是,当我们讨论数据归一化时,通常指的是连续数据的归一化。分类数据(通常)不需要前者。
此外,并非所有 ML 方法都需要您对数据进行规范化才能正常运行。此类方法的示例包括随机森林和梯度提升机。然而,其他人会这样做。例如,支持向量机和神经网络。
输入数据规范化的原因取决于方法本身。对于 SVM,进行数据规范化以确保输入特征在影响模型决策方面具有同等重要性。对于神经网络,我们对数据进行归一化处理,让梯度下降过程顺利收敛。
最后,为了回答您的问题,如果您正在处理连续数据并使用神经网络对数据建模,只需确保归一化数据的值彼此接近(即使它们不相同范围),因为这决定了梯度下降过程收敛的难易程度。如果您使用的是 SVM,最好将数据归一化到一个范围内,这样所有特征都可以通过 SVM 使用的相似性/距离函数赋予同等重要性。在其他情况下,无论范围如何,都可以完全消除对数据规范化的需求。最终,这取决于您使用的建模技术!
感谢 @user3666197 在评论中提供有用的反馈。