【问题标题】:Design application using Apache Spark使用 Apache Spark 设计应用程序
【发布时间】:2017-08-17 21:45:10
【问题描述】:

这是一个有点建筑的问题。我需要使用 Spark 和 Scala 作为主要工具来设计应用程序。我想尽可能减少人工干预。

我会以固定的时间间隔(例如每天)收到一个包含多个具有不同结构的文件的 zip 作为输入。我需要使用 Spark 处理它。转换后需要将数据移动到后端数据库。

想了解我可以用来设计应用程序的最佳方式。 处理 zip 的最佳方法是什么? 是否可以将 Spark Streaming 视为查看文件频率的选项? 我还应该考虑哪些其他选项?

任何指导都会非常可观。

【问题讨论】:

  • 这不是 SO 的话题。但是,您可以尝试实施步骤并寻求帮助
  • 离开架构部分,如何在 Spark 中使用具有不同结构的多个文件作为输入的 zip 文件。

标签: apache-spark scala-2.11


【解决方案1】:

这是一个广泛的问题,有批处理选项和流选项不确定您的确切要求。你可以在这里开始你的研究:https://jaceklaskowski.gitbooks.io/spark-structured-streaming/spark-sql-streaming-FileStreamSource.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-10
    • 1970-01-01
    • 1970-01-01
    • 2014-10-13
    • 1970-01-01
    • 2011-03-20
    相关资源
    最近更新 更多