如何将流数据从本地 Hadoop 集群保存到 AWS S3

【问题标题】：How to save streaming data from On-Premise Hadoop cluster to AWS S3如何将流数据从本地 Hadoop 集群保存到 AWS S3
【发布时间】：2017-02-14 02:21:12
【问题描述】：

我们正在 Hortonworks 上运行实时流应用程序，在 On-Premise 集群设置中使用 Kafka 和 Spark Streaming。

我们有一个需求，我们需要从 Spark Streaming 或 Kafka 推送一些事件触发的数据，以保存在 AWS 的 S3 文件系统上。

任何关于此的指针将不胜感激。

【问题讨论】：

标签： amazon-web-services amazon-s3 apache-kafka spark-streaming hortonworks-data-platform

【解决方案1】：

您可以使用 s3a:// 方案和 Hadoop 文件系统 API 进行保存，例如有点像

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

设置类路径可能有点棘手，但为此应在 HDP 中设置所有内容。更准确地说，如果不是，我可以拨打支持电话:)

【讨论】：