【发布时间】:2020-11-04 22:19:21
【问题描述】:
我在 HDFS 中有一个 SequenceFile,我想转换为数据帧并插入到表中。我在转换部分遇到了一些问题。
我有这个代码:
myseqFile = sc.sequenceFile("/user/sequencefile")
我得到了以下结构:
(u' 10', u' 10,34,Center,Tatic')
我需要得到以下数据框:
10,10,34,Center,Tatic
为此,我正在尝试使用以下代码:
res=myseqFile .map(lambda x: tuple(x)).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))
但我仍然得到相同的结果:
(u' 10', u' 10,34,Center,Tatic')
我怎样才能得到想要的输出?
【问题讨论】:
标签: python dataframe apache-spark pyspark tuples