【发布时间】:2019-10-30 19:09:17
【问题描述】:
我有 parquet 文件,其中包含两列(id,feature)。文件由 14348 行组成。file 我如何从文件中删除第一行 id、特征
代码
val df = spark.read.format("parquet").load("file:///usr/local/spark/dataset/model/data/user/part-r-00000-7d55ba81-5761-4e36-b488-7e6214df2a68.snappy.parquet")
val header = df.first()
val data = df.filter(row => row != header)
data .show()
结果似乎是output
【问题讨论】:
标签: scala apache-spark parquet