【发布时间】:2017-04-27 18:29:33
【问题描述】:
我正在使用 Apache Spark,我必须解析来自 Amazon S3 的文件。从 Amazon S3 路径获取文件时如何知道文件扩展名?
【问题讨论】:
标签: java amazon-web-services apache-spark amazon-s3
我正在使用 Apache Spark,我必须解析来自 Amazon S3 的文件。从 Amazon S3 路径获取文件时如何知道文件扩展名?
【问题讨论】:
标签: java amazon-web-services apache-spark amazon-s3
我建议关注 Cloudera 教程Accessing Data Stored in Amazon S3 through Spark
要从 Spark 应用程序访问存储在 Amazon S3 中的数据,您可以 使用 Hadoop 文件 API (
SparkContext.hadoopFile,JavaHadoopRDD.saveAsHadoopFile、SparkContext.newAPIHadoopRDD和JavaHadoopRDD.saveAsNewAPIHadoopFile) 用于读写 RDD, 提供s3a://bucket_name/path/to/file.txt形式的 URL。您可以使用数据源 API 读取和写入 Spark SQL 数据帧。
关于文件扩展名,解决方案很少。
您可以简单地通过文件名获取扩展名(即file.txt)。
如果您的扩展被存储在 S3 存储桶中的文件删除,您仍然可以通过查看为每个 S3 资源添加的元数据来了解内容类型。
http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html
【讨论】: