【问题标题】:how to retrieve files from amazon emr?如何从亚马逊 emr 中检索文件?
【发布时间】:2016-12-08 02:09:51
【问题描述】:

我的 Apache Spark 应用程序采用各种输入文件并将结果和日志存储在其他文件中。输入文件与应该在 Amazon 云上运行的应用程序一起提供(EMR 似乎比 EC2 更可取)。

现在,我知道我应该创建一个包含我的输入文件和访问它们的应用程序的 uber-jar。但是,一旦执行完成,如何从云端检索生成的文件?

作为附加信息,文件是使用代码中的相对路径创建和写入的。

【问题讨论】:

    标签: java file apache-spark amazon-emr


    【解决方案1】:

    假设您的意思是要访问集群外 Spark 应用程序生成的输出,通常的做法是将其写入 S3。那么您当然可以从 EMR 集群外部直接从 S3 读取数据。

    【讨论】:

    • 这是否意味着我必须使用 S3 路径初始化我的应用程序?例如,PrintWriter writer = new PrintWriter("s3:\\log\\logfile.txt", "UTF-8")。
    猜你喜欢
    • 1970-01-01
    • 2013-04-27
    • 2014-12-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-08-07
    相关资源
    最近更新 更多