在特征工程中处理经度和纬度

Dealing with Longitude and Latitude in Feature Engineering

我有一个数据集，其中包含有关全球房屋的信息，具有以下特征：房屋大小、卧室数量、城市名称、国家/地区名称、是否有花园……（以及许多其他典型的房屋信息）。目标变量是房子的价格。

我知道在机器学习或神经网络模型中不能接受字符串作为输入，所以我没有对城市名称和国家名称进行热编码（因为我最终会得到几百列）决定用地理坐标（一列经度和一列纬度）替换城市名称。房子所在的城市显然会帮助决定房子的价格。

那么用经纬度更改城市名称是否保留了这一重要信息？可以用经度和纬度更改城市名称吗？

笛卡尔坐标可以在某种程度上对模型有用。但是，对于某些模型（例如决策树），正确建模目标变量对地理坐标的依赖性可能需要过于复杂的模型。为了清楚和直观地理解这一点，您可以检查 this.

在这些情况下，一种常见的方法是将坐标转换为 polar coordinates，并将它们添加为新特征。当您考虑它时，您正在添加一种新方式 来表达同一事物，只是在不同的规模或系统中。这样一棵树将需要更少的分裂来模拟样本的这种空间依赖性。

也就是说，我不会用坐标完全替换现有的地理位置数据。添加一些基于国家/地区城市数据的 aggregates/statistics 可能也很有趣，而不是对它们进行热编码或仅用坐标替换它们。