【问题标题】:Build an application for reporting and analysis on Hadoop framework在 Hadoop 框架上构建用于报告和分析的应用程序
【发布时间】:2015-01-11 16:29:10
【问题描述】:

我有一个带有 SAS 的应用程序,我从 Oracle 中提取数据并使用 Base SAS 和 SAS 宏生成报告以供 Excel 使用。现在的问题是,我的数据库日益庞大,从 Oracle 获取数据需要更多时间,因此我的工作运行缓慢。

所以我希望我的应用程序构建在 Hadoop 上,以用于报告和分析目的。有人可以建议我任何方法以及我需要使用哪些工具。

【问题讨论】:

    标签: hadoop hive hbase analysis impala


    【解决方案1】:

    简短的回答是:视情况而定。

    对于从 Oracle 卸载数据,我建议您使用 Sqoop (http://sqoop.apache.org/),它专为这种特定用例而设计,甚至可以进行增量加载,并且可以为卸载的数据创建 Hive 表

    卸载数据后,您可以使用 Impala 构建您需要的报告。 Impala 可以原生地与 Hive 表一起使用,所以唱起来非常简单。当然,您必须将您的 SAS 代码重写为一组可以在 Impala 上运行的 SQL 语句。

    接下来,如果您需要在其上运行可视化工具,您可以尝试使用 Tableau 之类的工具或任何其他能够利用 ODBC/JDBC 连接到 Impala 的工具

    最后,我认为 Hadoop + Sqoop + Impala 可以满足您的需求。但我建议你也看看 MPP 数据库,因为使用 SAS 意味着你有非常结构化的数据,而 MPP 数据库更适合这种情况

    【讨论】:

    • 感谢您的建议。我的意思是,我可以用 R 或任何其他工具替换 SAS 来生成 excel 报告。我也可以使用 Hive/Impala 生成 excel 报告。
    • 不,Hive 和 Impala 将能够生成 CSV 文件,供您的 excel 应用程序读取。如果还不够,可以用Java/Python/R/等编写一个简单的应用程序。这将创建一个 xlsx 文件为您提供 csv,这非常简单。但无论哪种方式,我都建议您切换到一些 BI 解决方案,它们在报告方面要好得多,并且除了使用您的报告生成 excel 文件外,它们还具有更多功能
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-07-06
    • 2021-07-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-28
    • 1970-01-01
    相关资源
    最近更新 更多