使用 Apache Spark 从 Amazon S3 解析文件答案

【问题标题】：Parsing files from Amazon S3 with Apache Spark使用 Apache Spark 从 Amazon S3 解析文件
【发布时间】：2017-04-27 18:29:33
【问题描述】：

我正在使用 Apache Spark，我必须解析来自 Amazon S3 的文件。从 Amazon S3 路径获取文件时如何知道文件扩展名？

【问题讨论】：

标签： java amazon-web-services apache-spark amazon-s3

【解决方案1】：

我建议关注 Cloudera 教程Accessing Data Stored in Amazon S3 through Spark

要从 Spark 应用程序访问存储在 Amazon S3 中的数据，您可以使用 Hadoop 文件 API (SparkContext.hadoopFile, JavaHadoopRDD.saveAsHadoopFile、SparkContext.newAPIHadoopRDD 和 JavaHadoopRDD.saveAsNewAPIHadoopFile) 用于读写 RDD，提供 s3a://bucket_name/path/to/file.txt 形式的 URL。

您可以使用数据源 API 读取和写入 Spark SQL 数据帧。

关于文件扩展名，解决方案很少。您可以简单地通过文件名获取扩展名（即file.txt）。

如果您的扩展被存储在 S3 存储桶中的文件删除，您仍然可以通过查看为每个 S3 资源添加的元数据来了解内容类型。

http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html

【讨论】：

感谢您的回答。还有一个问题是，我如何知道我从 S3 获得的文件类型（如（json、csv、txt））。
您为什么要寻找扩展程序？您的 s3 文件末尾没有扩展名吗？
感谢您的指导。正如你所写的关于寻找扩展的答案，我得到了答案。