【发布时间】:2010-03-18 16:42:01
【问题描述】:
寻找针对 200 多个分布式系统(Windows、AS400、Linux 等)的 ETL 系统的任何建议。
我们每个月都会从所有客户那里收集数据(无论系统类型如何),将其带回、一起处理,然后将汇总的解决方案发回给他们。我的任务是自动化这个系统 - 关于如何稳健地做到这一点的任何建议,我真的不想重新发明轮子。我不拥有我从中提取数据的任何系统,这使这项任务变得更加困难,但可以安装客户端。
我已经用 Java 创建了一个原型客户端/服务器架构,并使用 FTP 进行传输,但我觉得它很脆弱。我应该注意到,不同系统的所有提取/转换代码已经存在于 Java 中(尽管是遗留的)。
我应该提到我们目前每月提取一次数据,但正在努力每周一次。
感谢任何见解。
【问题讨论】:
-
听起来您需要的是企业服务总线。它是一个用于在多个不同系统之间进行转换、路由和消息交换的系统。您可以查看 Mule 或 Apache ServiceMix。您的每个系统都可以是提供者和消费者,它们可以提供数据,您可以让处理引擎消费,然后将结果弹出回原始系统可以消费的 ESB。
-
另外,FTP 可能不是一个好的解决方案。像 JMS 这样的东西可能更适合,这取决于数据的类型和大小。
-
这些看起来很有希望,我会检查出来的。谢谢。