【发布时间】:2017-04-23 11:04:33
【问题描述】:
我在 hdfs 中有一个 csv 文件,如何使用 spark SQL 查询这个文件?例如,我想对特殊列进行选择请求,并将结果再次存储到 Hadoop 分布式文件系统中
谢谢
【问题讨论】:
标签: hadoop apache-spark hdfs apache-spark-sql
我在 hdfs 中有一个 csv 文件,如何使用 spark SQL 查询这个文件?例如,我想对特殊列进行选择请求,并将结果再次存储到 Hadoop 分布式文件系统中
谢谢
【问题讨论】:
标签: hadoop apache-spark hdfs apache-spark-sql
您可以通过创建 Dataframe 来实现。
val dataFrame = spark.sparkContext
.textFile("examples/src/main/resources/people.csv")
.map(_.split(","))
.map(attributes => Person(attributes(0), attributes(1).trim.toInt))
.toDF()
dataFrame.sql("<sql query>");
【讨论】:
val df = sparkSession.read.csv("path to your file in HDFS")。val df2 = df.select("field1", "field2")。df2.write.csv("path to a new file in HDFS")
【讨论】: