【问题标题】:Read new s3 file paths from spark streaming从火花流中读取新的 s3 文件路径
【发布时间】:2017-02-14 02:08:31
【问题描述】:

我想使用 spark 流来监控 s3 目录并返回添加到该目录的任何新文件的路径。 textFileStream 和 fileStream 似乎都无法做到这一点。真的有办法完成我想做的事吗?

编辑:Spark 版本。 2.1.0

【问题讨论】:

  • Spark 版本?
  • @mrsrinivas spark 2.1.0
  • 您可以添加您尝试过的代码吗?确保您已正确配置访问和密钥以访问 s3 文件系统。

标签: scala apache-spark amazon-s3 spark-streaming


【解决方案1】:

它使用 s3a:// ;我有测试可以证明这一点。

  1. 设置一个足够大的窗口来处理扫描目录的延迟,并清理它。
  2. 可以直接写入目标“目录”;无需编写然后重命名。如果你这样做:文件被复制并打开窗口。
  3. 不要尝试在那里设置检查点

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-12
    • 2017-04-02
    • 2021-06-12
    相关资源
    最近更新 更多