【问题标题】:How to save streaming data from On-Premise Hadoop cluster to AWS S3如何将流数据从本地 Hadoop 集群保存到 AWS S3
【发布时间】:2017-02-14 02:21:12
【问题描述】:

我们正在 Hortonworks 上运行实时流应用程序,在 On-Premise 集群设置中使用 Kafka 和 Spark Streaming。

我们有一个需求,我们需要从 Spark Streaming 或 Kafka 推送一些事件触发的数据,以保存在 AWS 的 S3 文件系统上。

任何关于此的指针将不胜感激。

【问题讨论】:

    标签: amazon-web-services amazon-s3 apache-kafka spark-streaming hortonworks-data-platform


    【解决方案1】:

    您可以使用 s3a:// 方案和 Hadoop 文件系统 API 进行保存,例如有点像

    val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

    设置类路径可能有点棘手,但为此应在 HDP 中设置所有内容。更准确地说,如果不是,我可以拨打支持电话:)

    【讨论】:

      猜你喜欢
      • 2018-06-21
      • 1970-01-01
      • 2014-10-07
      • 2014-07-27
      • 2019-09-08
      • 2023-01-27
      • 2020-10-06
      • 1970-01-01
      • 2019-03-23
      相关资源
      最近更新 更多