Python 过滤最近距离对的代码
Python code to filter closest distance pairs
这是我的代码。请注意,这只是一个玩具数据集,我的真实数据集在每个 table.
中包含大约 1000 个条目
import pandas as pd
import numpy as np
import sklearn.neighbors
locations_stores = pd.DataFrame({
'city_A' : ['City1', 'City2', 'City3', 'City4', ],
'latitude_A': [ 56.361176, 56.34061, 56.374749, 56.356624],
'longitude_A': [ 4.899779, 4.871195, 4.893847, 4.912281]
})
locations_neigh = pd.DataFrame({
'neigh_B': ['Neigh1', 'Neigh2', 'Neigh3', 'Neigh4','Neigh5'],
'latitude_B' : [ 53.314, 53.318, 53.381, 53.338,53.7364],
'longitude_B': [ 4.955,4.975,4.855,4.873,4.425]
})
/some calc code here/
##df_dist_long.loc[df_dist_long.sort_values('Dist(km)').groupby('neigh_B')['city_A'].min()]##
df_dist_long.to_csv('dist.csv',float_format='%.2f')
当我添加 df_dist_long.loc[df_dist_long.sort_values('Dist(km)').groupby('neigh_B')['city_A'].min()]
时。我得到这个错误
File "C:\Python\Python38\lib\site-packages\pandas\core\groupby\groupby.py", line 656, in wrapper
raise ValueError
ValueError
没有它,输出就像这样...
city_A neigh_B Dist(km)
0 City1 Neigh1 6.45
1 City2 Neigh1 6.42
2 City3 Neigh1 7.93
3 City4 Neigh1 5.56
4 City1 Neigh2 8.25
5 City2 Neigh2 6.67
6 City3 Neigh2 8.55
7 City4 Neigh2 8.92
8 City1 Neigh3 7.01 ..... and so on
我想要的是另一个 table 过滤离邻居最近的城市。例如,对于 'Neigh1',City4 是最近的(距离最小)。所以我想要 table 如下
city_A neigh_B Dist(km)
0 City4 Neigh1 5.56
1 City3 Neigh2 4.32
2 City1 Neigh3 7.93
3 City2 Neigh4 3.21
4 City4 Neigh5 4.56
5 City5 Neigh6 6.67
6 City3 Neigh7 6.16
..... and so on
城市名称是否重复并不重要,我只想将最接近的一对保存到另一个 csv。这个怎么实现,求高手帮忙!!
如果您只想计算每个社区最近的城市,则不需要计算完整的距离矩阵。
这是一个有效的代码示例,但我得到的输出与您的不同。可能是 lat/long 错误。
我用了你的数据
import pandas as pd
import numpy as np
import sklearn.neighbors
locations_stores = pd.DataFrame({
'city_A' : ['City1', 'City2', 'City3', 'City4', ],
'latitude_A': [ 56.361176, 56.34061, 56.374749, 56.356624],
'longitude_A': [ 4.899779, 4.871195, 4.893847, 4.912281]
})
locations_neigh = pd.DataFrame({
'neigh_B': ['Neigh1', 'Neigh2', 'Neigh3', 'Neigh4','Neigh5'],
'latitude_B' : [ 53.314, 53.318, 53.381, 53.338,53.7364],
'longitude_B': [ 4.955,4.975,4.855,4.873,4.425]
})
创建了一个我们可以查询的 BallTree
from sklearn.neighbors import BallTree
import numpy as np
stores_gps = locations_stores[['latitude_A', 'longitude_A']].values
neigh_gps = locations_neigh[['latitude_B', 'longitude_B']].values
tree = BallTree(stores_gps, leaf_size=15, metric='haversine')
并且对于我们想要最接近的每个 Neigh (k=1
) City/Store:
distance, index = tree.query(neigh_gps, k=1)
earth_radius = 6371
distance_in_km = distance * earth_radius
我们可以用
创建结果的 DataFrame
pd.DataFrame({
'Neighborhood' : locations_neigh.neigh_B,
'Closest_city' : locations_stores.city_A[ np.array(index)[:,0] ].values,
'Distance_to_city' : distance_in_km[:,0]
})
这给了我
Neighborhood Closest_city Distance_to_city
0 Neigh1 City2 19112.334106
1 Neigh2 City2 19014.154744
2 Neigh3 City2 18851.168702
3 Neigh4 City2 19129.555188
4 Neigh5 City4 15498.181486
由于我们的输出不同,有一些错误需要更正。也许交换了 lat/long,我只是在这里猜测。但这是您想要的方法,尤其是对于您的数据量。
编辑:对于全矩阵,使用
from sklearn.neighbors import DistanceMetric
dist = DistanceMetric.get_metric('haversine')
earth_radius = 6371
haversine_distances = dist.pairwise(np.radians(stores_gps), np.radians(neigh_gps) )
haversine_distances *= earth_radius
这将给出完整的矩阵,但请注意,对于较大的数字,这将花费很长时间,并且预计会受到内存限制。
您可以使用 numpy 的 np.argmin(haversine_distances, axis=1)
从 BallTree 获得类似的结果。它将导致距离最近的索引,可以像在 BallTree 示例中一样使用。
这是我的代码。请注意,这只是一个玩具数据集,我的真实数据集在每个 table.
中包含大约 1000 个条目import pandas as pd
import numpy as np
import sklearn.neighbors
locations_stores = pd.DataFrame({
'city_A' : ['City1', 'City2', 'City3', 'City4', ],
'latitude_A': [ 56.361176, 56.34061, 56.374749, 56.356624],
'longitude_A': [ 4.899779, 4.871195, 4.893847, 4.912281]
})
locations_neigh = pd.DataFrame({
'neigh_B': ['Neigh1', 'Neigh2', 'Neigh3', 'Neigh4','Neigh5'],
'latitude_B' : [ 53.314, 53.318, 53.381, 53.338,53.7364],
'longitude_B': [ 4.955,4.975,4.855,4.873,4.425]
})
/some calc code here/
##df_dist_long.loc[df_dist_long.sort_values('Dist(km)').groupby('neigh_B')['city_A'].min()]##
df_dist_long.to_csv('dist.csv',float_format='%.2f')
当我添加 df_dist_long.loc[df_dist_long.sort_values('Dist(km)').groupby('neigh_B')['city_A'].min()]
时。我得到这个错误
File "C:\Python\Python38\lib\site-packages\pandas\core\groupby\groupby.py", line 656, in wrapper
raise ValueError
ValueError
没有它,输出就像这样...
city_A neigh_B Dist(km)
0 City1 Neigh1 6.45
1 City2 Neigh1 6.42
2 City3 Neigh1 7.93
3 City4 Neigh1 5.56
4 City1 Neigh2 8.25
5 City2 Neigh2 6.67
6 City3 Neigh2 8.55
7 City4 Neigh2 8.92
8 City1 Neigh3 7.01 ..... and so on
我想要的是另一个 table 过滤离邻居最近的城市。例如,对于 'Neigh1',City4 是最近的(距离最小)。所以我想要 table 如下
city_A neigh_B Dist(km)
0 City4 Neigh1 5.56
1 City3 Neigh2 4.32
2 City1 Neigh3 7.93
3 City2 Neigh4 3.21
4 City4 Neigh5 4.56
5 City5 Neigh6 6.67
6 City3 Neigh7 6.16
..... and so on
城市名称是否重复并不重要,我只想将最接近的一对保存到另一个 csv。这个怎么实现,求高手帮忙!!
如果您只想计算每个社区最近的城市,则不需要计算完整的距离矩阵。
这是一个有效的代码示例,但我得到的输出与您的不同。可能是 lat/long 错误。
我用了你的数据
import pandas as pd
import numpy as np
import sklearn.neighbors
locations_stores = pd.DataFrame({
'city_A' : ['City1', 'City2', 'City3', 'City4', ],
'latitude_A': [ 56.361176, 56.34061, 56.374749, 56.356624],
'longitude_A': [ 4.899779, 4.871195, 4.893847, 4.912281]
})
locations_neigh = pd.DataFrame({
'neigh_B': ['Neigh1', 'Neigh2', 'Neigh3', 'Neigh4','Neigh5'],
'latitude_B' : [ 53.314, 53.318, 53.381, 53.338,53.7364],
'longitude_B': [ 4.955,4.975,4.855,4.873,4.425]
})
创建了一个我们可以查询的 BallTree
from sklearn.neighbors import BallTree
import numpy as np
stores_gps = locations_stores[['latitude_A', 'longitude_A']].values
neigh_gps = locations_neigh[['latitude_B', 'longitude_B']].values
tree = BallTree(stores_gps, leaf_size=15, metric='haversine')
并且对于我们想要最接近的每个 Neigh (k=1
) City/Store:
distance, index = tree.query(neigh_gps, k=1)
earth_radius = 6371
distance_in_km = distance * earth_radius
我们可以用
创建结果的 DataFramepd.DataFrame({
'Neighborhood' : locations_neigh.neigh_B,
'Closest_city' : locations_stores.city_A[ np.array(index)[:,0] ].values,
'Distance_to_city' : distance_in_km[:,0]
})
这给了我
Neighborhood Closest_city Distance_to_city
0 Neigh1 City2 19112.334106
1 Neigh2 City2 19014.154744
2 Neigh3 City2 18851.168702
3 Neigh4 City2 19129.555188
4 Neigh5 City4 15498.181486
由于我们的输出不同,有一些错误需要更正。也许交换了 lat/long,我只是在这里猜测。但这是您想要的方法,尤其是对于您的数据量。
编辑:对于全矩阵,使用
from sklearn.neighbors import DistanceMetric
dist = DistanceMetric.get_metric('haversine')
earth_radius = 6371
haversine_distances = dist.pairwise(np.radians(stores_gps), np.radians(neigh_gps) )
haversine_distances *= earth_radius
这将给出完整的矩阵,但请注意,对于较大的数字,这将花费很长时间,并且预计会受到内存限制。
您可以使用 numpy 的 np.argmin(haversine_distances, axis=1)
从 BallTree 获得类似的结果。它将导致距离最近的索引,可以像在 BallTree 示例中一样使用。