【问题标题】:Approach for large data set for reporting用于报告的大数据集的方法
【发布时间】:2019-11-13 23:46:15
【问题描述】:

我在 AWS s3 中有 2.2 亿个原始文件,我正在考虑将它们合并到一个估计大约 10 TB 的文件中。合并文件将用作事实表,但文件格式用于审计报告。

原始文件是来自应用程序的源数据。如果应用程序有任何新的数据更改,文件的包含将发生变化。

我想问一下是否有人遇到过这个用户案例的端到端流程?

s3--> ETL(文件合并)--> s3 --> 报告(表格)

【问题讨论】:

    标签: amazon-s3 architecture report tableau-api matillion


    【解决方案1】:

    我没有亲自尝试过,但这就是 Athena 的用途……跳过您的 ETL 流程,直接从文件中查询。您是否有理由将这一切都转储到一个文件中而不是保持分散?一遍又一遍地重写一个 10TB 的文件非常昂贵且耗时......我个人至少会调查将文件 1-1 与源文件保持一致。

    1. 创建在 s3 上重写文件时触发的 s3 触发器
    2. Create a Lambda that creates your "audit ready" report files on s3
    3. 使用AWS Athena查询那些报告文件
    4. Tableau connector to Athena 用于您的报告

    【讨论】:

      猜你喜欢
      • 2011-07-14
      • 1970-01-01
      • 2011-03-05
      • 1970-01-01
      • 2011-02-16
      • 2014-08-20
      • 1970-01-01
      • 2010-09-09
      • 1970-01-01
      相关资源
      最近更新 更多