【发布时间】:2016-12-25 11:13:08
【问题描述】:
我在 s3 中定义了一个外部配置单元表
LOCATION 's3n://bucket/path/'
在聚合一堆数据的 pyspark 作业结束时写入此表时,写入 Hive 非常慢,因为只有 1 个执行程序/容器用于写入。写入 HDFS 支持的表时,写入并行发生并且速度明显更快。
我尝试使用 s3a 路径定义表,但由于一些模糊的错误,我的工作失败了。
这是在 Amazon EMR 5.0 (hadoop 2.7)、pyspark 2.0 上,但我在以前版本的 EMR/spark 上遇到过同样的问题。
我可以使用配置或替代库来提高编写效率吗?
【问题讨论】:
标签: apache-spark amazon-s3 hive pyspark emr