【发布时间】:2015-08-13 17:46:16
【问题描述】:
我想知道 ETL 无法解决的问题。众所周知,我们可以提取数据,进行一些转换和处理,并将转换后的数据存储到数据存储中,ETL 中的处理也可能非常复杂。
如果除了使用 J2EE 构建 UI 应用程序之外,一切都可以使用 ETL 完成,那么编写 Java 代码的范围是什么。
哪种算法在ETL中运行良好,哪种算法应该在ETL之外运行。
我更喜欢谈论 ETL 工具,而不是在这方面将 ETL 作为一个概念,就像 Talend 是一个自动生成代码的工具(特定于 ETL 供应商的实现方式)而不是编写自己的代码来制作它例如,发生改变实现以提高内存效率对时间效率或提高时间效率对内存效率,更是如此,使事物本质上是通用的..!!
所以在这方面,在制作产品和编写算法时,我们应该使用标准 ETL 工具还是自定义代码以实现长期目标。
有人可以详细说明 ETL 失败或存在限制的用例和示例吗?
提前致谢:)!!
【问题讨论】:
-
ETL 是一个非常广泛的概念。将数据从一个系统移动到另一个系统的任何操作都可能被视为 ETL。您需要执行哪些与 ETL 相关的任务?
-
@mellamokb,嗨。!!我正在尝试的任务是:根据来自包含各种其他呼叫详细信息的数据源中的电话号码对数据进行分组,然后按电话号码迭代该组并计算一些 KPI,例如通话持续时间、电话号码拨打电话的次数,平均下一次调用之间的时间等。我已经在 Map Reduce 中编写了它们。但我读到它可以使用 Talend 之类的工具或任何 ETL 工具来完成。我想知道哪种算法适合ETL,哪种算法不适合ETL。感谢您的回复。
标签: java mapreduce apache-pig etl talend