【问题标题】:Parsing files from Amazon S3 with Apache Spark使用 Apache Spark 从 Amazon S3 解析文件
【发布时间】:2017-04-27 18:29:33
【问题描述】:

我正在使用 Apache Spark,我必须解析来自 Amazon S3 的文件。从 Amazon S3 路径获取文件时如何知道文件扩展名?

【问题讨论】:

    标签: java amazon-web-services apache-spark amazon-s3


    【解决方案1】:

    我建议关注 Cloudera 教程Accessing Data Stored in Amazon S3 through Spark

    要从 Spark 应用程序访问存储在 Amazon S3 中的数据,您可以 使用 Hadoop 文件 API (SparkContext.hadoopFile, JavaHadoopRDD.saveAsHadoopFileSparkContext.newAPIHadoopRDDJavaHadoopRDD.saveAsNewAPIHadoopFile) 用于读写 RDD, 提供 s3a://bucket_name/path/to/file.txt 形式的 URL。

    您可以使用数据源 API 读取和写入 Spark SQL 数据帧。

    关于文件扩展名,解决方案很少。 您可以简单地通过文件名获取扩展名(即file.txt)。

    如果您的扩展被存储在 S3 存储桶中的文件删除,您仍然可以通过查看为每个 S3 资源添加的元数据来了解内容类型。

    http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html

    【讨论】:

    • 感谢您的回答。还有一个问题是,我如何知道我从 S3 获得的文件类型(如(json、csv、txt))。
    • 您为什么要寻找扩展程序?您的 s3 文件末尾没有扩展名吗?
    • 感谢您的指导。正如你所写的关于寻找扩展的答案,我得到了答案。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-09-11
    • 2019-04-15
    • 2014-06-26
    • 1970-01-01
    • 1970-01-01
    • 2018-07-03
    • 2012-10-10
    相关资源
    最近更新 更多