【问题标题】:PySpark - Reading SequenceFile and convert it to DataFramePySpark - 读取 SequenceFile 并将其转换为 DataFrame
【发布时间】:2020-11-04 22:19:21
【问题描述】:

我在 HDFS 中有一个 SequenceFile,我想转换为数据帧并插入到表中。我在转换部分遇到了一些问题。

我有这个代码:

myseqFile = sc.sequenceFile("/user/sequencefile")

我得到了以下结构:

(u' 10', u' 10,34,Center,Tatic')

我需要得到以下数据框:

10,10,34,Center,Tatic

为此,我正在尝试使用以下代码:

res=myseqFile .map(lambda x: tuple(x)).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))

但我仍然得到相同的结果:

(u' 10', u' 10,34,Center,Tatic')

我怎样才能得到想要的输出?

【问题讨论】:

    标签: python dataframe apache-spark pyspark tuples


    【解决方案1】:

    可能是这样的:

    res=myseqFile .map(lambda x: x[0] + ',' + x[1]).map(lambda x: str(x).split(",")).map(lambda x: (x[0],x[1],x[2],x[3],x[4]))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-06-11
      • 2016-04-22
      • 2015-08-04
      • 2022-12-18
      • 2016-05-29
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多