【问题标题】:Apache spark querying columnar dataApache spark查询列数据
【发布时间】:2017-01-06 19:14:03
【问题描述】:

我一直在研究 Apache Spark 2.0 并尝试使用 Spark SQL 处理文本文件中的一些数据。数据结构如下

1
鲍勃
伦敦
2014

2
罗伯特
巴黎
2016

3
山姆
罗马
2011

我将如何在诸如此类的数据架构上运行 SparkSQL 查询。

我也意识到 spark 提供了多种读取数据源的选项。

spark.read.

csv,jdbc,load,options,parquet,table,textFile
格式、json、选项、orc、模式、文本

这些中的任何一个都可以使用吗?

【问题讨论】:

  • 我建议你先将文件转换成CSV格式
  • 文件太大 45 到 60 gigs
  • 见这里:mapr.com/blog/…

标签: scala apache-spark


【解决方案1】:

这解决了我的任务

spark.sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\n\n")
spark.sparkContext.textFile("File.txt")

【讨论】:

    猜你喜欢
    • 2019-06-14
    • 2018-02-03
    • 1970-01-01
    • 2020-07-13
    • 1970-01-01
    • 2016-03-31
    相关资源
    最近更新 更多