AWS Glue 将列值添加为另一个 DynamicFrame 中的列
AWS Glue add column value as a column in another DynamicFrame
我是 AWS Glue 和 Pyspark 的新手,所以我在转换工作时遇到了一些问题。我有两个 DynamicFrames,其中一个在其中一列中包含值,需要将其作为单独的列添加到另一个 DF 中,并且该列中的值必须是与另一列中的值相对应的值id 在第一个 table 中。外观如下:
Table 1 Table2
+--+-----+-----+ +--+-----+-----+
|id|name |value| |id|col1 |col2 |
+--+-----+-----+ +--+-----+-----+
| 1|name1| 10 | | 1|str1 |val1 |
+--+-----+-----+ +--+-----+-----+
| 2|name2| 20 | | 2|str2 |val2 |
+--+-----+-----+ +--+-----+-----+
我需要的新格式是:
Table2
+--+-----+-----+-----+-----+
|id|col1 |col2 |name1|name2|
+--+-----+-----+-----+-----+
| 1|str1 |val1 | 10 | | <--- add 10 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+
| 2|str2 |val2 | | 20 | <--- add 20 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+
假设 2 个数据帧分别命名为 df1
和 df2
.
df3 = df1.groupBy('id').pivot('name').sum('value')
df4 = df2.join(df3, on='id', how='inner')
df4.show(truncate=False)
我是 AWS Glue 和 Pyspark 的新手,所以我在转换工作时遇到了一些问题。我有两个 DynamicFrames,其中一个在其中一列中包含值,需要将其作为单独的列添加到另一个 DF 中,并且该列中的值必须是与另一列中的值相对应的值id 在第一个 table 中。外观如下:
Table 1 Table2
+--+-----+-----+ +--+-----+-----+
|id|name |value| |id|col1 |col2 |
+--+-----+-----+ +--+-----+-----+
| 1|name1| 10 | | 1|str1 |val1 |
+--+-----+-----+ +--+-----+-----+
| 2|name2| 20 | | 2|str2 |val2 |
+--+-----+-----+ +--+-----+-----+
我需要的新格式是:
Table2
+--+-----+-----+-----+-----+
|id|col1 |col2 |name1|name2|
+--+-----+-----+-----+-----+
| 1|str1 |val1 | 10 | | <--- add 10 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+
| 2|str2 |val2 | | 20 | <--- add 20 only here because the id from the row in the first table must match the id from the second table
+--+-----+-----+-----+-----+
假设 2 个数据帧分别命名为 df1
和 df2
.
df3 = df1.groupBy('id').pivot('name').sum('value')
df4 = df2.join(df3, on='id', how='inner')
df4.show(truncate=False)