【问题标题】:pyspark how to drop rdd column like in scala .droppyspark 如何像在 scala .drop 中一样删除 rdd 列
【发布时间】:2016-12-29 21:47:56
【问题描述】:

文件video.csv如下

2482cal-2792-48da,Action,Comedy 
099acca-8888-48ca,Action,Comedy

在 Spark Scala 中,可以使用 .drop(1) 删除 RDD 列 1 以删除所有行 rdd 列 1,例如 482cal-2792-48da099acca-8888-48ca

我想知道如何在 PySpark 中的 PySpark rdd 中执行此操作,如下面第 2 行代码所示

火花斯卡拉

val records = sc.textFile("file:///home/videos.csv")
val words = records.flatMap(record => record.split(",").drop(1))**

PySpark

videos_rdd = sc.textFile("/user/spark_dataset/datastax_ds320/videos.csv", 4)
videos_rdd_flat = videos_rdd.flatMap(lambda t:t.split(","))**

谢谢

【问题讨论】:

    标签: python scala csv apache-spark pyspark


    【解决方案1】:

    可以使用拼接:

    videos_rdd.flatMap(lambda t: t.split(",")[1:])
    

    【讨论】:

      猜你喜欢
      • 2017-05-14
      • 1970-01-01
      • 1970-01-01
      • 2020-02-12
      • 2015-03-15
      • 1970-01-01
      • 2021-09-08
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多