训练模型时数据集中的纬度和经度数据
Latitude and Longitude data in dataset while training the model
我使用的是加州的住房数据,它有经纬度。在我继续训练我的模型之前删除它们(纬度和经度)是好习惯吗?
如果您只是使用原始 lat/long 信息,那么是的,您应该删除它们。这是因为 lat/long 的值本身并没有意义,条件是您的模型没有任何 "understanding" lat/long 的变化意味着什么。例如,就目标变量的变化而言,纬度变化 1 度意味着什么?如果没有任何相关的方式,那么你会引入噪音或潜在的虚假关系。
Lat/long 作为一种计算对您的响应变量有有意义影响的特征的方法更常用:点之间的距离、有边界的区域或任何您可以说 "the change in this feature that I calculate from spatial information correlates with a change in the response".
简而言之:要么将其删除,要么使用它来计算您确实想要包含的功能。
我使用的是加州的住房数据,它有经纬度。在我继续训练我的模型之前删除它们(纬度和经度)是好习惯吗?
如果您只是使用原始 lat/long 信息,那么是的,您应该删除它们。这是因为 lat/long 的值本身并没有意义,条件是您的模型没有任何 "understanding" lat/long 的变化意味着什么。例如,就目标变量的变化而言,纬度变化 1 度意味着什么?如果没有任何相关的方式,那么你会引入噪音或潜在的虚假关系。
Lat/long 作为一种计算对您的响应变量有有意义影响的特征的方法更常用:点之间的距离、有边界的区域或任何您可以说 "the change in this feature that I calculate from spatial information correlates with a change in the response".
简而言之:要么将其删除,要么使用它来计算您确实想要包含的功能。