【发布时间】:2021-03-08 16:48:52
【问题描述】:
我有两个DataFrame,分别叫DF1和DF2,每个DataFrame的内容如下:
df1:
line_item_usage_account_id line_item_unblended_cost name
100000000001 12.05 account1
200000000001 52 account2
300000000003 12.03 account3
df2:
accountname accountproviderid clustername app_pmo app_costcenter
account1 100000000001 cluster1 111111 11111111
account2 200000000001 cluster2 222222 22222222
我需要为字段 df1.line_item_usage_account_id 和 df2.accountproviderid 进行连接
当两个字段具有相同的 ID 时,必须添加 DF1 line_item_unblended_cost 列的值。 而当DF1的line_item_usage_account_id字段的值不在DF2的accountproviderid列时,df1字段必须按如下方式聚合:
accountname accountproviderid clustername app_pmo app_costcenter line_item_unblended_cost
account1 100000000001 cluster1 111111 11111111 12.05
account2 200000000001 cluster2 222222 22222222 52
account3 300000000003 NA NA NA 12.03
account3 数据通过填充 DF2 的“na”列添加到新 DataFrame 的末尾。
任何帮助提前谢谢。
【问题讨论】:
标签: python-3.x pyspark pyspark-dataframes