Pyspark——如何左合并数据框
Pyspark -- How to left merge dataframes
在 Pandas 中,我可以像这样合并两个数据帧:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
'value': [5, 6, 7, 8]})
df1.merge(df2, how='left', left_on='lkey', right_on='rkey')
lkey value_x rkey value_y
0 foo 1 foo 5
1 foo 1 foo 8
2 bar 2 bar 6
3 baz 3 baz 7
4 foo 5 foo 5
5 foo 5 foo 8
在 pyspark 中这相当于什么?左连接?
您可以申请加入 pyspark as
df = df1.join(df2, df1.lkey==df2.rkey, 'left_outer')
在 Pandas 中,我可以像这样合并两个数据帧:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
'value': [5, 6, 7, 8]})
df1.merge(df2, how='left', left_on='lkey', right_on='rkey')
lkey value_x rkey value_y
0 foo 1 foo 5
1 foo 1 foo 8
2 bar 2 bar 6
3 baz 3 baz 7
4 foo 5 foo 5
5 foo 5 foo 8
在 pyspark 中这相当于什么?左连接?
您可以申请加入 pyspark as
df = df1.join(df2, df1.lkey==df2.rkey, 'left_outer')