【问题标题】:Add a Boolean Column in Target table using AWS Glue使用 AWS Glue 在目标表中添加布尔列
【发布时间】:2021-05-04 21:03:27
【问题描述】:

我是 AWS Glue 的新手,希望您能帮助我进行非常简单的转换。我正在尝试学习 AWS Glue

以下是我的数据。我想在目标数据集中添加一个新列,如果电影评分高于 5,则显示“是”,否则显示“否”。 Movie_Id 和 User_id 组合是数据集中的唯一字段。

我的数据

id  movie_id    user_id    rating  
1    abc         xyx        10
2    csd         xyx         8
3    abc         sss         3
4    csd         sss         5

结果

id   movie_id     user_id     rating   Yes/No
1    abc         xyx        10        Yes
2    csd         xyx         8        Yes
3    abc         sss         3        No
4    csd         sss         5        No

【问题讨论】:

    标签: aws-glue


    【解决方案1】:

    这可以使用类似于如下所示的 UDF 来完成。你可以阅读更多关于它的信息here

    def deriveBool(rec):
      if rec["rating"] > 5 :
        rec["Yes/No"] = 'Yes'
      else:
        rec["Yes/No"] = 'No'
      return rec    
    datasource_mapped = Map.apply(frame = datasource0, f = deriveBool, transformation_ctx = "deriveboolvalues")
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-10-06
      • 2019-03-17
      • 1970-01-01
      • 1970-01-01
      • 2019-07-21
      • 2021-05-12
      • 2018-04-15
      • 2018-06-30
      相关资源
      最近更新 更多