【问题标题】:Trying to create Data frame from a file with delimiter '|'尝试从带有分隔符“|”的文件创建数据框
【发布时间】:2018-03-02 17:07:11
【问题描述】:
我想加载一个带有分隔符“|”的文本文件进入火花中的数据框。
一种方法是创建 RDD 并使用 toDF 创建 Dataframe。但是我想知道我是否可以直接创建 DF。
截至目前,我正在使用以下命令
val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")
【问题讨论】:
标签:
scala
apache-spark
dataframe
【解决方案1】:
对于 Spark 2.x
val df = spark.read.format("csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
对于 Spark
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
您可以添加更多选项,例如option("header", "true"),以便在同一语句中读取标题。
【解决方案2】:
您可以在“读取”选项中指定分隔符:
spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")