【发布时间】:2018-04-03 01:32:14
【问题描述】:
我正在使用 Spark 和 Scala 执行批处理。 每天,我都需要将销售文件导入 Spark 数据框并执行一些转换。 (具有相同架构的文件,只有日期和销售值可能会更改) 在一周结束时,我需要使用所有每日转换来执行每周聚合。因此,我需要坚持每天的转换,以免在周末让 Spark 做所有事情。 (我想避免在周末导入所有数据并执行所有转换)。 我还希望有一个支持增量更新(upserts)的解决方案。 我经历了一些选项,例如 Dataframe.persist(StorageLevel.DISK_ONLY)。我想知道是否有更好的选择,比如使用 Hive 表? 您对此有何建议? 与 Dataframe.persist 相比,使用 Hive 表有什么优势? 提前谢谢了。
【问题讨论】:
标签: scala apache-spark hive spark-dataframe