【问题标题】:migrating complex stored procedures to hive / Hbase or any other hadoop eco system将复杂的存储过程迁移到 hive / Hbase 或任何其他 hadoop 生态系统
【发布时间】:2015-05-22 00:15:49
【问题描述】:

我们有如下ORACLE存储过程:(伪代码)

创建存储过程(参数)

开始

选择报表;

调用光标,然后插入另一个表;

调用其他存储过程;

结束;

我们有很多像上面这样的存储过程。我们的数据已经增长,存储过程运行缓慢。我们希望将这些存储过程转换为 HIVE 或其他 hadoop 生态系统。请建议我们哪个 hadoop 生态系统支持这种情况。

【问题讨论】:

    标签: hadoop hive apache-spark hbase sqoop2


    【解决方案1】:

    答案实际上取决于整个情况:数据库中存储了什么,如何到达那里,存储过程在做什么,以及如何访问结果。我认为您无法将这么大的问题转换为可在 stackoverflow 上回答的格式。

    要回答具体问题,您似乎正在使用存储过程进行 ETL。在 Hadoop 中有许多等价物,最著名的是:plain map-reduce、pig/hive 脚本、spark。但它们无法处理您数据库中的数据,因此您需要先将数据导入 Hadoop。

    如果您使用游标和插入处理数据,这可能是您的过程运行缓慢的原因。您是否考虑过聘请顾问,他可以建议优化处理的方法,而无需在 Hadoop 上从头开始重写所有内容?

    【讨论】:

    • 嗨尼克,感谢您的宝贵建议。是的,我们正在使用 SP 进行 ETL。我们可以使用 Sqoop 将数据导入 Hadoop。但在那之后,我想知道 Hadoop 中可用的存储过程等价物是什么。我们不想使用存储过程。我们希望将它们重写为 Hadoop 或任何其他可以扩展数据并提高性能的技术。能否请您提出更多建议。
    • @shankervalipireddy 您必须阅读有关我提到的技术的更多信息才能提出更具体的问题;根据您提供的信息,任何人都可以做的就是命名相关技术。再次,在放弃 Oracle 之前,我敦促您检查是否可以通过避免基于游标的处理来优化您的 ETL。请参阅stackoverflow.com/questions/8714967/… 了解我所说的示例。
    猜你喜欢
    • 1970-01-01
    • 2016-11-01
    • 2016-10-15
    • 1970-01-01
    • 2015-04-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多