如何使用pyspark读取orc文件答案

【问题标题】：how to use pyspark to read orc file如何使用pyspark读取orc文件
【发布时间】：2017-07-04 09:45:22
【问题描述】：

spark 有两种压缩文件格式。一种是镶木地板，很容易阅读：

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 来阅读。

【问题讨论】：

没有示例是什么意思？你真的搜索过 ORC，还是“ocr”（这是别的东西）。 hortonworks.com/blog/bringing-orc-support-into-apache-spark
对不起，应该是兽人。

【解决方案1】：

嗯，有两种方法：

火花2.x:

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

火花1.6:

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

【讨论】：

因为 orc 文件在 hdfs 上。我使用 hiveCtx.read.orc("hdfs://aaa/bbb/ccc")。消息告诉我：“畸形的兽人数据”，但我使用 sql 函数：hiveCtx.sql("select * from ccc") 它可以工作，很奇怪......