【发布时间】:2017-07-04 09:45:22
【问题描述】:
spark 有两种压缩文件格式。一种是镶木地板,很容易阅读:
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 来阅读。
【问题讨论】:
-
没有示例是什么意思?你真的搜索过 ORC,还是“ocr”(这是别的东西)。 hortonworks.com/blog/bringing-orc-support-into-apache-spark
-
对不起,应该是兽人。
标签: apache-spark pyspark pyspark-sql