Python Pandas:DataFrame 作为查找 Table
Python Pandas: DataFrame as a Lookup Table
这是一个预处理的 DataFrame,列表示特定列的频率和成功值。例如:列 A
分别与 FREQ_A
和 SUCCESS_A
关联。
A B Gold FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 B 0 1 0.00 1 0.00
1 2 A 1 1 0.01 1 0.01
我有另一个 DataFrame,如下所示:
A B
0 1 A
1 2 B
现在我想添加关联的频率和成功列(FREQ_*
和 SUCCESS_*
、* : {A,B}
),从预处理的 DataFrame 中查找值。一个重要的观察结果是,预处理后的 DataFrame 具有一组相同的(非 freq/success)列,但不是一组完整的键。 (见行 2
、A:3
和 B:C
不在预处理帧中)
例如:
dataframe 中第一行的值为 A = 1, B = A
,因此:
FREQ_A
将采用 FREQ_A
的原始数据帧的值,其中 A == 1
和
FREQ_B
将采用 FREQ_B
的原始数据帧的值,其中 B == A
理想输出
A B FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 A 1 0.00 1 0.01
1 2 B 1 0.01 1 0.00
测试用例
A B
0 1 A
1 2 B
2 1 C
3 4 A
df1 = pd.DataFrame({
'A': [1, 2],
'B': ['B', 'A'],
'FREQ_A': [1, 1],
'FREQ_B': [1, 1],
'Gold': [0, 1],
'SUCCESS_A': [0.0, 0.01],
'SUCCESS_B': [0.0, 0.01]})
df2 = pd.DataFrame({'A': [1, 2], 'B': ['A', 'B']})
result = (df2
.merge(df1[['A', 'FREQ_A', 'SUCCESS_A']], on='A')
.merge(df1[['B', 'FREQ_B', 'SUCCESS_B']], on='B'))
>>> result
A B FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 A 1 0.00 1 0.01
1 2 B 1 0.01 1 0.00
编辑
对于任意数据帧:
result = pd.concat(
[df2, pd.concat([df2[[col]].merge(
df1[[col, 'FREQ_' + str(col), 'SUCCESS_' + str(col)]],
on=col, how='left').iloc[:, 1:]
for col in df2], axis=1)],
axis=1)
这是一个预处理的 DataFrame,列表示特定列的频率和成功值。例如:列 A
分别与 FREQ_A
和 SUCCESS_A
关联。
A B Gold FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 B 0 1 0.00 1 0.00
1 2 A 1 1 0.01 1 0.01
我有另一个 DataFrame,如下所示:
A B
0 1 A
1 2 B
现在我想添加关联的频率和成功列(FREQ_*
和 SUCCESS_*
、* : {A,B}
),从预处理的 DataFrame 中查找值。一个重要的观察结果是,预处理后的 DataFrame 具有一组相同的(非 freq/success)列,但不是一组完整的键。 (见行 2
、A:3
和 B:C
不在预处理帧中)
例如:
dataframe 中第一行的值为 A = 1, B = A
,因此:
FREQ_A
将采用 FREQ_A
的原始数据帧的值,其中 A == 1
和
FREQ_B
将采用 FREQ_B
的原始数据帧的值,其中 B == A
理想输出
A B FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 A 1 0.00 1 0.01
1 2 B 1 0.01 1 0.00
测试用例
A B
0 1 A
1 2 B
2 1 C
3 4 A
df1 = pd.DataFrame({
'A': [1, 2],
'B': ['B', 'A'],
'FREQ_A': [1, 1],
'FREQ_B': [1, 1],
'Gold': [0, 1],
'SUCCESS_A': [0.0, 0.01],
'SUCCESS_B': [0.0, 0.01]})
df2 = pd.DataFrame({'A': [1, 2], 'B': ['A', 'B']})
result = (df2
.merge(df1[['A', 'FREQ_A', 'SUCCESS_A']], on='A')
.merge(df1[['B', 'FREQ_B', 'SUCCESS_B']], on='B'))
>>> result
A B FREQ_A SUCCESS_A FREQ_B SUCCESS_B
0 1 A 1 0.00 1 0.01
1 2 B 1 0.01 1 0.00
编辑
对于任意数据帧:
result = pd.concat(
[df2, pd.concat([df2[[col]].merge(
df1[[col, 'FREQ_' + str(col), 'SUCCESS_' + str(col)]],
on=col, how='left').iloc[:, 1:]
for col in df2], axis=1)],
axis=1)