在特征工程中处理经度和纬度
Dealing with Longitude and Latitude in Feature Engineering
我有一个数据集,其中包含有关全球房屋的信息,具有以下特征:房屋大小、卧室数量、城市名称、国家/地区名称、是否有花园……(以及许多其他典型的房屋信息)。目标变量是房子的价格。
我知道在机器学习或神经网络模型中不能接受字符串作为输入,所以我没有对城市名称和国家名称进行热编码(因为我最终会得到几百列)决定用地理坐标(一列经度和一列纬度)替换城市名称。
房子所在的城市显然会帮助决定房子的价格。
那么用经纬度更改城市名称是否保留了这一重要信息?可以用经度和纬度更改城市名称吗?
笛卡尔坐标可以在某种程度上对模型有用。但是,对于某些模型(例如决策树),正确建模目标变量对地理坐标的依赖性可能需要过于复杂的模型。为了清楚和直观地理解这一点,您可以检查 this.
在这些情况下,一种常见的方法是将坐标转换为 polar coordinates,并将它们添加为新特征。当您考虑它时,您正在添加一种新方式 来表达同一事物,只是在不同的规模或系统中。这样一棵树将需要更少的分裂来模拟样本的这种空间依赖性。
也就是说,我不会用坐标完全替换现有的地理位置数据。添加一些基于国家/地区城市数据的 aggregates/statistics 可能也很有趣,而不是对它们进行热编码或仅用坐标替换它们。
我有一个数据集,其中包含有关全球房屋的信息,具有以下特征:房屋大小、卧室数量、城市名称、国家/地区名称、是否有花园……(以及许多其他典型的房屋信息)。目标变量是房子的价格。
我知道在机器学习或神经网络模型中不能接受字符串作为输入,所以我没有对城市名称和国家名称进行热编码(因为我最终会得到几百列)决定用地理坐标(一列经度和一列纬度)替换城市名称。 房子所在的城市显然会帮助决定房子的价格。
那么用经纬度更改城市名称是否保留了这一重要信息?可以用经度和纬度更改城市名称吗?
笛卡尔坐标可以在某种程度上对模型有用。但是,对于某些模型(例如决策树),正确建模目标变量对地理坐标的依赖性可能需要过于复杂的模型。为了清楚和直观地理解这一点,您可以检查 this.
在这些情况下,一种常见的方法是将坐标转换为 polar coordinates,并将它们添加为新特征。当您考虑它时,您正在添加一种新方式 来表达同一事物,只是在不同的规模或系统中。这样一棵树将需要更少的分裂来模拟样本的这种空间依赖性。
也就是说,我不会用坐标完全替换现有的地理位置数据。添加一些基于国家/地区城市数据的 aggregates/statistics 可能也很有趣,而不是对它们进行热编码或仅用坐标替换它们。