【问题标题】:Trying to create Data frame from a file with delimiter '|'尝试从带有分隔符“|”的文件创建数据框
【发布时间】:2018-03-02 17:07:11
【问题描述】:

我想加载一个带有分隔符“|”的文本文件进入火花中的数据框。 一种方法是创建 RDD 并使用 toDF 创建 Dataframe。但是我想知道我是否可以直接创建 DF。 截至目前,我正在使用以下命令

val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")

【问题讨论】:

  • 您使用的是哪个版本的 spark?
  • 为什么你的输入文件名以斜线结尾?

标签: scala apache-spark dataframe


【解决方案1】:

对于 Spark 2.x

val df = spark.read.format("csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

对于 Spark
val df = sqlContext.read
      .format("com.databricks.spark.csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

您可以添加更多选项,例如option("header", "true"),以便在同一语句中读取标题。

【讨论】:

    【解决方案2】:

    您可以在“读取”选项中指定分隔符:

    spark.read
    .option("delimiter", "|")
    .csv("/user/danishdshadab786/paper2/products/")
    

    【讨论】:

      猜你喜欢
      • 2021-10-24
      • 2018-07-05
      • 2014-12-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-21
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多