在 Pandas 数据框中使用 pyproj 在投影之间进行转换
Converting between projections using pyproj in Pandas dataframe
这无疑是一个 "can't see the wood for the trees" 时刻。我盯着这段代码看了一个小时,看不出我做错了什么。我知道它正盯着我的脸,但我就是看不见!
我正在尝试使用 Python 在两个地理坐标系之间进行转换。
我有经度(x 轴)和纬度(y 轴)值,想转换为 OSGB 1936。对于单个点,我可以执行以下操作:
import numpy as np
import pandas as pd
import shapefile
import pyproj
inProj = pyproj.Proj(init='epsg:4326')
outProj = pyproj.Proj(init='epsg:27700')
x1,y1 = (-2.772048, 53.364265)
x2,y2 = pyproj.transform(inProj,outProj,x1,y1)
print(x1,y1)
print(x2,y2)
这会产生以下结果:
-2.772048 53.364265
348721.01039783185 385543.95241055806
这似乎是合理的,表明经度 -2.772048 转换为坐标 348721.0103978。
事实上,我想在 Pandas 数据框中执行此操作。数据框包含包含经度和纬度的列,我想添加另外两个包含转换坐标的列(称为 newLong 和 newLat)。
示例数据框可能是:
latitude longitude
0 53.364265 -2.772048
1 53.632481 -2.816242
2 53.644596 -2.970592
我写的代码是:
import numpy as np
import pandas as pd
import shapefile
import pyproj
inProj = pyproj.Proj(init='epsg:4326')
outProj = pyproj.Proj(init='epsg:27700')
df = pd.DataFrame({'longitude':[-2.772048,-2.816242,-2.970592],'latitude':[53.364265,53.632481,53.644596]})
def convertCoords(row):
x2,y2 = pyproj.transform(inProj,outProj,row['longitude'],row['latitude'])
return pd.Series({'newLong':x2,'newLat':y2})
df[['newLong','newLat']] = df.apply(convertCoords,axis=1)
print(df)
产生:
latitude longitude newLong newLat
0 53.364265 -2.772048 385543.952411 348721.010398
1 53.632481 -2.816242 415416.003113 346121.990302
2 53.644596 -2.970592 416892.024217 335933.971216
但是现在好像newLong和newLat的值搞混了(对比上面显示的单点转换的结果)
我在哪里交叉线才能产生这个结果? (如果很明显,我深表歉意!)
当您执行 df[['newLong','newLat']] = df.apply(convertCoords,axis=1)
时,您正在索引 df.apply
输出的列。但是,列顺序是任意的,因为您的系列是使用字典定义的(本质上是无序的)。
您可以选择 return 具有固定列顺序的系列:
return pd.Series([x2, y2])
或者,如果您想保留 convertCoords
输出标记,则可以使用 .join
合并结果:
return pd.Series({'newLong':x2,'newLat':y2})
...
df = df.join(df.apply(convertCoords, axis=1))
请注意 pyproj
的 transform
函数也接受 arrays
,这在涉及大型数据帧时非常有用,并且比使用 lambda
快得多/apply
函数
import pandas as pd
from pyproj import Proj, transform
inProj, outProj = Proj(init='epsg:4326'), Proj(init='epsg:27700')
df['newLon'], df['newLat'] = transform(inProj, outProj, df['longitude'].tolist(), df['longitude'].tolist())
这无疑是一个 "can't see the wood for the trees" 时刻。我盯着这段代码看了一个小时,看不出我做错了什么。我知道它正盯着我的脸,但我就是看不见!
我正在尝试使用 Python 在两个地理坐标系之间进行转换。
我有经度(x 轴)和纬度(y 轴)值,想转换为 OSGB 1936。对于单个点,我可以执行以下操作:
import numpy as np
import pandas as pd
import shapefile
import pyproj
inProj = pyproj.Proj(init='epsg:4326')
outProj = pyproj.Proj(init='epsg:27700')
x1,y1 = (-2.772048, 53.364265)
x2,y2 = pyproj.transform(inProj,outProj,x1,y1)
print(x1,y1)
print(x2,y2)
这会产生以下结果:
-2.772048 53.364265
348721.01039783185 385543.95241055806
这似乎是合理的,表明经度 -2.772048 转换为坐标 348721.0103978。
事实上,我想在 Pandas 数据框中执行此操作。数据框包含包含经度和纬度的列,我想添加另外两个包含转换坐标的列(称为 newLong 和 newLat)。
示例数据框可能是:
latitude longitude
0 53.364265 -2.772048
1 53.632481 -2.816242
2 53.644596 -2.970592
我写的代码是:
import numpy as np
import pandas as pd
import shapefile
import pyproj
inProj = pyproj.Proj(init='epsg:4326')
outProj = pyproj.Proj(init='epsg:27700')
df = pd.DataFrame({'longitude':[-2.772048,-2.816242,-2.970592],'latitude':[53.364265,53.632481,53.644596]})
def convertCoords(row):
x2,y2 = pyproj.transform(inProj,outProj,row['longitude'],row['latitude'])
return pd.Series({'newLong':x2,'newLat':y2})
df[['newLong','newLat']] = df.apply(convertCoords,axis=1)
print(df)
产生:
latitude longitude newLong newLat
0 53.364265 -2.772048 385543.952411 348721.010398
1 53.632481 -2.816242 415416.003113 346121.990302
2 53.644596 -2.970592 416892.024217 335933.971216
但是现在好像newLong和newLat的值搞混了(对比上面显示的单点转换的结果)
我在哪里交叉线才能产生这个结果? (如果很明显,我深表歉意!)
当您执行 df[['newLong','newLat']] = df.apply(convertCoords,axis=1)
时,您正在索引 df.apply
输出的列。但是,列顺序是任意的,因为您的系列是使用字典定义的(本质上是无序的)。
您可以选择 return 具有固定列顺序的系列:
return pd.Series([x2, y2])
或者,如果您想保留 convertCoords
输出标记,则可以使用 .join
合并结果:
return pd.Series({'newLong':x2,'newLat':y2})
...
df = df.join(df.apply(convertCoords, axis=1))
请注意 pyproj
的 transform
函数也接受 arrays
,这在涉及大型数据帧时非常有用,并且比使用 lambda
快得多/apply
函数
import pandas as pd
from pyproj import Proj, transform
inProj, outProj = Proj(init='epsg:4326'), Proj(init='epsg:27700')
df['newLon'], df['newLat'] = transform(inProj, outProj, df['longitude'].tolist(), df['longitude'].tolist())