Pyspark——如何左合并数据框

Pyspark -- How to left merge dataframes

在 Pandas 中,我可以像这样合并两个数据帧:

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

df1.merge(df2, how='left', left_on='lkey', right_on='rkey')


  lkey  value_x rkey  value_y
0  foo        1  foo        5
1  foo        1  foo        8
2  bar        2  bar        6
3  baz        3  baz        7
4  foo        5  foo        5
5  foo        5  foo        8

在 pyspark 中这相当于什么?左连接?

您可以申请加入 pyspark as

df = df1.join(df2, df1.lkey==df2.rkey, 'left_outer')