使用 AWS Glue 在目标 table 中添加布尔列
Add a Boolean Column in Target table using AWS Glue
我是 AWS Glue 的新手,希望您能帮助我完成一个非常简单的转换。我正在尝试学习 AWS Glue
以下是我的数据。我想在目标数据集中添加一个新列,如果电影评级高于 5,则显示 'Yes' 其他 'No'。 Movie_Id & User_id 组合是数据集中的唯一字段。
我的数据
id movie_id user_id rating
1 abc xyx 10
2 csd xyx 8
3 abc sss 3
4 csd sss 5
结果
id movie_id user_id rating Yes/No
1 abc xyx 10 Yes
2 csd xyx 8 Yes
3 abc sss 3 No
4 csd sss 5 No
这可以使用类似如下所示的 UDF 来完成。您可以阅读更多相关信息 here。
def deriveBool(rec):
if rec["rating"] > 5 :
rec["Yes/No"] = 'Yes'
else:
rec["Yes/No"] = 'No'
return rec
datasource_mapped = Map.apply(frame = datasource0, f = deriveBool, transformation_ctx = "deriveboolvalues")
我是 AWS Glue 的新手,希望您能帮助我完成一个非常简单的转换。我正在尝试学习 AWS Glue
以下是我的数据。我想在目标数据集中添加一个新列,如果电影评级高于 5,则显示 'Yes' 其他 'No'。 Movie_Id & User_id 组合是数据集中的唯一字段。
我的数据
id movie_id user_id rating
1 abc xyx 10
2 csd xyx 8
3 abc sss 3
4 csd sss 5
结果
id movie_id user_id rating Yes/No
1 abc xyx 10 Yes
2 csd xyx 8 Yes
3 abc sss 3 No
4 csd sss 5 No
这可以使用类似如下所示的 UDF 来完成。您可以阅读更多相关信息 here。
def deriveBool(rec):
if rec["rating"] > 5 :
rec["Yes/No"] = 'Yes'
else:
rec["Yes/No"] = 'No'
return rec
datasource_mapped = Map.apply(frame = datasource0, f = deriveBool, transformation_ctx = "deriveboolvalues")