【发布时间】:2017-10-24 13:32:28
【问题描述】:
我正在尝试使用 Spark 将一行变成多行。我的目标类似于 SQL UNPIVOT。
我有一个 360GB 的管道分隔文本文件,压缩 (gzip)。它有超过 1,620 列。这是基本布局:
primary_key|property1_name|property1_value|property800_name|property800_value
12345|is_male|1|is_college_educated|1
这些属性名称/值字段超过 800 个。大约有 2.8 亿行。该文件位于 S3 存储桶中。
用户希望我取消透视数据。例如:
primary_key|key|value
12345|is_male|1
12345|is_college_educated|1
这是我第一次使用 Spark。我正在努力寻找一个好的方法来做到这一点。
在 Spark 中执行此操作的好方法是什么?
谢谢。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql spark-dataframe