【发布时间】:2020-10-15 09:44:58
【问题描述】:
我需要将序列号添加到列(数组) 我的源数据采用镶木地板格式,容量接近 20 亿条记录。 我必须从 parquet 中仅选择键和代码列并将序列号添加到 ref_codes 并将其加载回 S3
Key_1 Key_2 Key_3 Ref_codes
112240386 7435038894 2 [4659,53540,78907]
113325994 7940375640 1 [7232,7840,83969]
223352476 7765270324 4 [9999]
345936074 7950076012 1 [78650,4829,30000]
Key_1 Key_2 Key_3 Ref_codes
112240386 7435038894 2 [(4659,0),(53540,1),(78907,2)]
113325994 7940375640 1 [(7232,0),(7840,1),(83969,2)]
223352476 7765270324 4 [(9999,0)]
345936074 7950076012 1 [(78650,0),(4829,1),(30000,2)]
我是 Scala 的新手,我尝试了多种选择,但没有得到正确的结果。任何帮助都非常感谢...
【问题讨论】:
标签: scala apache-spark parquet