特征缩放及其对各种算法的影响
Feature scaling and its affect on various algorithm
尽管经历了很多与此相关的类似问题,但我仍然无法理解为什么某些算法易受其影响而其他算法则不然。
直到现在我发现 SVM 和 K-means 容易受到特征缩放的影响,而线性回归和决策树 not.Can 有人请详细说明为什么?一般或与这 4 个算法有关。
我是初学者,请通俗易懂的解释一下。
我能想到的一个原因是 SVM 和 K-means,至少在基本配置下,使用 L2 距离度量。例如,如果将 delta-x 或 delta-y 加倍,两点之间的 L1 或 L2 距离度量将给出不同的结果。
使用线性回归,您可以在进行测量之前通过有效地变换坐标系来拟合线性变换以最好地描述数据。由于无论数据的坐标系如何,最佳模型都是相同的,根据定义,您的结果对于包括特征缩放在内的任何线性变换都是不变的。
对于决策树,您通常会寻找 x < N 形式的规则,其中唯一重要的细节是有多少项目通过或未通过给定的阈值测试 - 您将其传递到您的熵函数中。因为这个规则格式不依赖于尺寸尺度,因为没有连续的距离度量,我们又一次有方差。
每个原因略有不同,但希望对您有所帮助。
尽管经历了很多与此相关的类似问题,但我仍然无法理解为什么某些算法易受其影响而其他算法则不然。
直到现在我发现 SVM 和 K-means 容易受到特征缩放的影响,而线性回归和决策树 not.Can 有人请详细说明为什么?一般或与这 4 个算法有关。
我是初学者,请通俗易懂的解释一下。
我能想到的一个原因是 SVM 和 K-means,至少在基本配置下,使用 L2 距离度量。例如,如果将 delta-x 或 delta-y 加倍,两点之间的 L1 或 L2 距离度量将给出不同的结果。
使用线性回归,您可以在进行测量之前通过有效地变换坐标系来拟合线性变换以最好地描述数据。由于无论数据的坐标系如何,最佳模型都是相同的,根据定义,您的结果对于包括特征缩放在内的任何线性变换都是不变的。
对于决策树,您通常会寻找 x < N 形式的规则,其中唯一重要的细节是有多少项目通过或未通过给定的阈值测试 - 您将其传递到您的熵函数中。因为这个规则格式不依赖于尺寸尺度,因为没有连续的距离度量,我们又一次有方差。
每个原因略有不同,但希望对您有所帮助。