使用 AWS Glue 在目标 table 中添加布尔列

Add a Boolean Column in Target table using AWS Glue

我是 AWS Glue 的新手,希望您能帮助我完成一个非常简单的转换。我正在尝试学习 AWS Glue

以下是我的数据。我想在目标数据集中添加一个新列,如果电影评级高于 5,则显示 'Yes' 其他 'No'。 Movie_Id & User_id 组合是数据集中的唯一字段。

我的数据

id  movie_id    user_id    rating  
1    abc         xyx        10
2    csd         xyx         8
3    abc         sss         3
4    csd         sss         5

结果

id   movie_id     user_id     rating   Yes/No
1    abc         xyx        10        Yes
2    csd         xyx         8        Yes
3    abc         sss         3        No
4    csd         sss         5        No

这可以使用类似如下所示的 UDF 来完成。您可以阅读更多相关信息 here

def deriveBool(rec):
  if rec["rating"] > 5 :
    rec["Yes/No"] = 'Yes'
  else:
    rec["Yes/No"] = 'No'
  return rec    
datasource_mapped = Map.apply(frame = datasource0, f = deriveBool, transformation_ctx = "deriveboolvalues")