【发布时间】:2021-05-12 23:07:09
【问题描述】:
在 AWS Glue 中是否可能出现以下行为? 我正在尝试通过以一对多方式加入两个 DynamicFrame 来创建单个 AVRO 文件。
例如,我有一个包含多种教师类型的 DyF: 教师编号 教师姓名
还有一个有许多学生类型的 Dyf: 学生卡 教师编号 学生姓名
我正在尝试将这些组合起来,以便老师可能有很多学生,例如:
[
{
teacher_id: 1,
teacher_name: 'John',
students: [
{
student_id: 100,
teacher_id: 1
student_name: 'Sally'
},
{
student_id: 200,
teacher_id: 1,
student_name: 'Jack'
}
]
},
...
]
使用 Join.apply(teacher, student, 'teacher_id', 'teacher_id') 只会导致重复行:
[
{
teacher_id: 1,
teacher_name: 'John',
student_id: 100,
teacher_id: 1
student_name: 'Sally'
},
{
teacher_id: 1,
teacher_name: 'John',
student_id: 200,
teacher_id: 1
student_name: 'Jack'
}
...
]
]
【问题讨论】:
标签: python amazon-web-services etl aws-glue spark-avro