Hadoop/Spark 用于构建大型分析报告答案

【问题标题】：Hadoop/Spark for build large analytics reportHadoop/Spark 用于构建大型分析报告
【发布时间】：2016-03-31 21:30:34
【问题描述】：

我对分布式处理引擎一无所知，所以很难理解它是否适合我的需求。

我在关系数据库中有一个巨大的表，用户每天都在使用它（crud 操作和搜索）。

现在有一项新任务 - 可以根据需要构建为期一两年的庞大汇总报告。并且做的很快。过去两年的所有这些表记录都太大而无法存储在内存中，所以我应该将计算分成块，对吧？

我不想重新发明轮子，所以我的问题是，像 Hadoop 这样的分布式处理系统是否适合这类任务？

【问题讨论】：

标签： hadoop apache-spark distributed-computing

【解决方案1】：

可能。非 Hadoop 方式是创建可用于其他聚合的半聚合报告。即使用 30 个每日聚合来创建 1 个每月聚合。

在某些情况下，这可能是不可能的，因此您可以将数据提取到您的 spark 集群等并进行汇总。通常关系数据库不会为您提供数据局部性功能，因此您可以将数据移动到一些 nosql 数据库，如 Cassandra 或 hbase 或 elasticsearch。还有一个很大的关键问题是您是否希望答案是实时的？除非您通过诸如作业服务器等的一些努力，否则火花或 Hadoop 作业通常是批处理作业。意味着您提交作业并稍后获得答案（火花流是一个例外。）

【讨论】：

不幸的是，没有办法对预先汇总的报告使用方法，因为有一些来自用户输入的汇总参数，并且任何时候都可以从旧系统迁移一些新数据。不，绝对不需要实时，报告应该异步生成。这是否意味着在这种情况下 Hadoop 方式是最好的方法？