【问题标题】:How to save streaming data from On-Premise Hadoop cluster to AWS S3如何将流数据从本地 Hadoop 集群保存到 AWS S3
【发布时间】:2017-02-14 02:21:12
【问题描述】:
我们正在 Hortonworks 上运行实时流应用程序,在 On-Premise 集群设置中使用 Kafka 和 Spark Streaming。
我们有一个需求,我们需要从 Spark Streaming 或 Kafka 推送一些事件触发的数据,以保存在 AWS 的 S3 文件系统上。
任何关于此的指针将不胜感激。
【问题讨论】:
标签:
amazon-web-services
amazon-s3
apache-kafka
spark-streaming
hortonworks-data-platform
【解决方案1】:
您可以使用 s3a:// 方案和 Hadoop 文件系统 API 进行保存,例如有点像
val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration)
val out = fs.create("dest/mydata", true)
out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really")
out.close()
设置类路径可能有点棘手,但为此应在 HDP 中设置所有内容。更准确地说,如果不是,我可以拨打支持电话:)