【发布时间】:2017-01-06 19:14:03
【问题描述】:
我一直在研究 Apache Spark 2.0 并尝试使用 Spark SQL 处理文本文件中的一些数据。数据结构如下
1
鲍勃
伦敦
2014
2
罗伯特
巴黎
2016
3
山姆
罗马
2011
我将如何在诸如此类的数据架构上运行 SparkSQL 查询。
我也意识到 spark 提供了多种读取数据源的选项。
spark.read.
csv,jdbc,load,options,parquet,table,textFile
格式、json、选项、orc、模式、文本
这些中的任何一个都可以使用吗?
【问题讨论】:
-
我建议你先将文件转换成CSV格式
-
文件太大 45 到 60 gigs
-
见这里:mapr.com/blog/…
标签: scala apache-spark