【发布时间】:2017-08-17 21:45:10
【问题描述】:
这是一个有点建筑的问题。我需要使用 Spark 和 Scala 作为主要工具来设计应用程序。我想尽可能减少人工干预。
我会以固定的时间间隔(例如每天)收到一个包含多个具有不同结构的文件的 zip 作为输入。我需要使用 Spark 处理它。转换后需要将数据移动到后端数据库。
想了解我可以用来设计应用程序的最佳方式。 处理 zip 的最佳方法是什么? 是否可以将 Spark Streaming 视为查看文件频率的选项? 我还应该考虑哪些其他选项?
任何指导都会非常可观。
【问题讨论】:
-
这不是 SO 的话题。但是,您可以尝试实施步骤并寻求帮助
-
离开架构部分,如何在 Spark 中使用具有不同结构的多个文件作为输入的 zip 文件。