Apache spark查询列数据答案

【问题标题】：Apache spark querying columnar dataApache spark查询列数据
【发布时间】：2017-01-06 19:14:03
【问题描述】：

我一直在研究 Apache Spark 2.0 并尝试使用 Spark SQL 处理文本文件中的一些数据。数据结构如下

1
鲍勃
伦敦
2014

2
罗伯特
巴黎
2016

3
山姆
罗马
2011

我将如何在诸如此类的数据架构上运行 SparkSQL 查询。

我也意识到 spark 提供了多种读取数据源的选项。

spark.read.

csv,jdbc,load,options,parquet,table,textFile
格式、json、选项、orc、模式、文本

这些中的任何一个都可以使用吗？

【问题讨论】：

【解决方案1】：

这解决了我的任务

spark.sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\n\n")
spark.sparkContext.textFile("File.txt")

【讨论】：