矢量化数据帧查找
Vectorized dataframe look-up
我有两个数据框:
df = pd.DataFrame([['A', 'B'], ['B', 'A']], columns=['Mon', 'Tues'])
Mon Tues
0 A B
1 B A
lookup = pd.DataFrame([[0, 1], [2, 3]], index=['A', 'B'], columns=df.columns)
Mon Tues
A 0 1
B 2 3
对于每一天,对于第一个数据框中的每个键,我想在第二个数据框中查找它的值。这是一种方法:
output = pd.DataFrame()
for col in df.columns:
output[col] = df[col].map(lookup[col])
Mon Tues
0 0 3
1 2 1
有没有办法在没有显式循环的情况下得到相同的答案?
我假设 df
中的每一列数据都是 lookup.index
的随机顺序,并且 lookup.index
是按排序顺序排列的。因此,接下来,这是一个基于 NumPy 的矢量化解决方案,特别是使用其 advanced-indexing
-
idx = np.argsort(df.values,1)
df_out = pd.DataFrame(lookup.values[idx,np.arange(idx.shape[1])],columns=df.columns)
示例输出 -
In [41]: idx = np.argsort(df.values,1)
In [42]: pd.DataFrame(lookup.values[idx,np.arange(idx.shape[1])],columns=df.columns)
Out[42]:
Mon Tues
0 0 3
1 2 1
如果lookup.index
没有排序,我们需要做一些额外的工作-
sidx = lookup.index.argsort()
arr_out = lookup.values[idx,np.arange(idx.shape[1])][sidx]
您可以使用replace
来交换值:
>>> df.replace(lookup)
Mon Tues
0 0 3
1 2 1
当传递给 replace
方法时,DataFrame 的处理方式类似于嵌套字典。对于每个列标签,列的值映射到查找 DataFrame 中相应的索引值。
我有两个数据框:
df = pd.DataFrame([['A', 'B'], ['B', 'A']], columns=['Mon', 'Tues'])
Mon Tues
0 A B
1 B A
lookup = pd.DataFrame([[0, 1], [2, 3]], index=['A', 'B'], columns=df.columns)
Mon Tues
A 0 1
B 2 3
对于每一天,对于第一个数据框中的每个键,我想在第二个数据框中查找它的值。这是一种方法:
output = pd.DataFrame()
for col in df.columns:
output[col] = df[col].map(lookup[col])
Mon Tues
0 0 3
1 2 1
有没有办法在没有显式循环的情况下得到相同的答案?
我假设 df
中的每一列数据都是 lookup.index
的随机顺序,并且 lookup.index
是按排序顺序排列的。因此,接下来,这是一个基于 NumPy 的矢量化解决方案,特别是使用其 advanced-indexing
-
idx = np.argsort(df.values,1)
df_out = pd.DataFrame(lookup.values[idx,np.arange(idx.shape[1])],columns=df.columns)
示例输出 -
In [41]: idx = np.argsort(df.values,1)
In [42]: pd.DataFrame(lookup.values[idx,np.arange(idx.shape[1])],columns=df.columns)
Out[42]:
Mon Tues
0 0 3
1 2 1
如果lookup.index
没有排序,我们需要做一些额外的工作-
sidx = lookup.index.argsort()
arr_out = lookup.values[idx,np.arange(idx.shape[1])][sidx]
您可以使用replace
来交换值:
>>> df.replace(lookup)
Mon Tues
0 0 3
1 2 1
当传递给 replace
方法时,DataFrame 的处理方式类似于嵌套字典。对于每个列标签,列的值映射到查找 DataFrame 中相应的索引值。