【发布时间】:2016-11-17 06:12:42
【问题描述】:
我正在尝试读取 pyspark 中的 avro 文件。 从How to read Avro file in PySpark 发现 spark-avro 是最好的方法,但我不知道如何从他们的Github repo 安装它。没有可下载的jar,我自己构建吗?怎么样?
它是在集群上运行的 Spark 1.6 (pyspark)。我没有设置它,所以对配置不太了解,但我有 sudo 访问权限,所以我想我应该能够安装东西。但是这台机器不能直接上网,所以需要手动复制和安装东西。
谢谢。
【问题讨论】:
标签: pyspark spark-avro