【发布时间】:2014-11-20 16:22:13
【问题描述】:
当 Apache Spark 将其结果上传到 S3 时,我发现了一个主要的性能问题。据我了解,这些步骤...
最终阶段的输出被写入 HDFS 中的
_temp/表,并被移动到特定S3文件夹内的"_temporary"文件夹中。一旦整个过程完成 - Apache spark 完成
saveAsTextFile阶段,然后将S3中的"_temporary"文件夹中的文件移动到主文件夹中。这实际上需要很长时间 [每个文件大约 1 分钟(平均大小:600 MB BZ2)]。这部分没有登录到通常的stderr日志中。
我在 AWS EMR 上使用 Apache Spark 1.0.1 和 Hadoop 2.2。
有人遇到过这个问题吗?
更新 1
如何增加执行此移动过程的线程数?
任何建议都非常感谢......
谢谢
【问题讨论】:
标签: amazon-s3 hdfs apache-spark emr