使用 Pandas 连接两个 DataFrame，一个每个键 1 行，另一个每个键多个行

Question

首先，我想指出，我没有在 Whosebug 和 pandas 文档中找到我的问题的答案，因此，如果之前有人问过这个问题，我将不胜感激link 该线程。

我想按如下方式加入两个DataFrame。

df1 =

key   x   y   z
0    x0  y0  z0
1    x1  y1  z1
...
10  x10 y10 z10

df2=

key w   v   u
0   w0  v0  u0
0   w0  v0  u0
0   w0  v0  u0
1   w1  v1  u1
1   w1  v1  u1
2   w2  v2  u2
3   w3  v3  u3
...
10  w10 v10 u10
10  w10 v10 u10

desired_df_output =

key  x   y   z   w   v   u
0   x0  y0  z0  w0  v0  u0
1   x1  y1  z1  w1  v1  u1
...
10 x10 y10 z10 w10 v10 u10

我试过这个 df1.join(df2, how='inner', on='key')，但我收到此错误：TypeError: object of type 'NoneType' has no len()。

谢谢

Answer 1

似乎 df2 有重复的值，所以如果您使用 drop_duplicates 方法删除它们并从右侧与 df1 合并，您会得到想要的结果。

out = df1.merge(df2.drop_duplicates(), on='key')

输出：

  key    x    y    z    w    v    u
0   0   x0   y0   z0   w0   v0   u0
1   1   x1   y1   z1   w1   v1   u1
2  10  x10  y10  z10  w10  v10  u10

Answer 2

import pandas as pd

df1 = pd.DataFrame({'k':[0, 1, 2, 3],
                    'x':['x0', 'x1', 'x2', 'x3'],
                    'y':['y0', 'y1', 'y2', 'y3'],
                    'z':['z0', 'z1', 'z2', 'z3']
                   })
df1.set_index('k', inplace=True)

df2 = pd.DataFrame({'k':[0, 0, 0, 1, 1, 1],
                    'v':['v0', 'v0', 'v0','v1', 'v1', 'v1',],
                    'w':['w0', 'w0', 'w0','w1', 'w1', 'w1',],
                    'u':['u0', 'u0', 'u0','u1', 'u1', 'u1',]
                   })
df2.set_index('k', inplace=True)

df_merged = pd.merge(df1, df2.drop_duplicates(), how='inner', left_index=True, right_index=True)

df_merged

    x   y   z   v   w   u
k                       
0   x0  y0  z0  v0  w0  u0
1   x1  y1  z1  v1  w1  u1

使用 Pandas 连接两个 DataFrame，一个每个键 1 行，另一个每个键多个行

Joining two DataFrames with Pandas, one with 1 row per key, and the other with several rows per key

join

concatenation

pandas