AWS Glue 将列值添加为另一个 DynamicFrame 中的列

AWS Glue add column value as a column in another DynamicFrame

我是 AWS Glue 和 Pyspark 的新手,所以我在转换工作时遇到了一些问题。我有两个 DynamicFrames,其中一个在其中一列中包含值,需要将其作为单独的列添加到另一个 DF 中,并且该列中的值必须是与另一列中的值相对应的值id 在第一个 table 中。外观如下:

Table 1             Table2
+--+-----+-----+    +--+-----+-----+
|id|name |value|    |id|col1 |col2 |
+--+-----+-----+    +--+-----+-----+
| 1|name1| 10  |    | 1|str1 |val1 |
+--+-----+-----+    +--+-----+-----+
| 2|name2| 20  |    | 2|str2 |val2 |
+--+-----+-----+    +--+-----+-----+

我需要的新格式是:

Table2
+--+-----+-----+-----+-----+
|id|col1 |col2 |name1|name2|
+--+-----+-----+-----+-----+
| 1|str1 |val1 | 10  |     |  <--- add 10 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+
| 2|str2 |val2 |     | 20  |  <--- add 20 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+

假设 2 个数据帧分别命名为 df1df2.

df3 = df1.groupBy('id').pivot('name').sum('value')
df4 = df2.join(df3, on='id', how='inner')
df4.show(truncate=False)