【问题标题】:how to use pyspark to read orc file如何使用pyspark读取orc文件
【发布时间】:2017-07-04 09:45:22
【问题描述】:

spark 有两种压缩文件格式。一种是镶木地板,很容易阅读:

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 来阅读。

【问题讨论】:

标签: apache-spark pyspark pyspark-sql


【解决方案1】:

嗯,有两种方法:

火花2.x:

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

火花1.6:

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

【讨论】:

  • 因为 orc 文件在 hdfs 上。我使用 hiveCtx.read.orc("hdfs://aaa/bbb/ccc")。消息告诉我:“畸形的兽人数据”,但我使用 sql 函数:hiveCtx.sql("select * from ccc") 它可以工作,很奇怪......
猜你喜欢
  • 2020-10-15
  • 1970-01-01
  • 2016-12-28
  • 2021-10-23
  • 1970-01-01
  • 2021-12-03
  • 2021-05-16
  • 1970-01-01
  • 2015-11-25
相关资源
最近更新 更多