【问题标题】:Hadoop/Spark for build large analytics reportHadoop/Spark 用于构建大型分析报告
【发布时间】:2016-03-31 21:30:34
【问题描述】:

我对分布式处理引擎一无所知,所以很难理解它是否适​​合我的需求。

我在关系数据库中有一个巨大的表,用户每天都在使用它(crud 操作和搜索)。

现在有一项新任务 - 可以根据需要构建为期一两年的庞大汇总报告。并且做的很快。 过去两年的所有这些表记录都太大而无法存储在内存中,所以我应该将计算分成块,对吧?

我不想重新发明轮子,所以我的问题是, 像 Hadoop 这样的分布式处理系统是否适合这类任务?

【问题讨论】:

    标签: hadoop apache-spark distributed-computing


    【解决方案1】:

    可能。 非 Hadoop 方式是创建可用于其他聚合的半聚合报告。 即使用 30 个每日聚合来创建 1 个每月聚合。

    在某些情况下,这可能是不可能的,因此您可以将数据提取到您的 spark 集群等并进行汇总。 通常关系数据库不会为您提供数据局部性功能,因此您可以将数据移动到一些 nosql 数据库,如 Cassandra 或 hbase 或 elasticsearch。 还有一个很大的关键问题是您是否希望答案是实时的?除非您通过诸如作业服务器等的一些努力,否则火花或 Hadoop 作业通常是批处理作业。意味着您提交作业并稍后获得答案(火花流是一个例外。)

    【讨论】:

    • 不幸的是,没有办法对预先汇总的报告使用方法,因为有一些来自用户输入的汇总参数,并且任何时候都可以从旧系统迁移一些新数据。不,绝对不需要实时,报告应该异步生成。这是否意味着在这种情况下 Hadoop 方式是最好的方法?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-07-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-06
    • 1970-01-01
    相关资源
    最近更新 更多