【问题标题】:Falcon vs Wandisco Non-stop猎鹰vs旺迪斯科不间断
【发布时间】:2015-02-24 11:55:50
【问题描述】:
用例是:我需要将我的所有数据从 HDFS 集群复制到具有相同主从设置的另一个集群,我将释放以前的集群并开始在新集群中运行我的作业。
我已经阅读了有关 Apache Falcon 和 Wandisco 不间断 Hadoop 的信息,这有助于进行这种镜像。但是我不确定当我将它们作为我的生态系统的一部分时它们提供的其他优势(这会更有优势?-这取决于我的用例,但我想知道是否有任何特别的优势)。能否根据您对 Falcon 与 Wandisco 的经验进行类比?
【问题讨论】:
标签:
hadoop
hdfs
hortonworks-data-platform
database-mirroring
apache-falcon
【解决方案1】:
(免责声明:我在 WANdisco 工作。)
我的观点是产品是互补的。除了数据传输,Falcon 还做了很多事情,比如设置数据工作流阶段。 WANdisco 的产品进行主动-主动数据复制(这意味着可以等效地使用来自源集群和目标集群的数据)。
在您的用例中,如果您使用 Falcon,那么您实际上是在使用 DistCP 将数据复制到新集群。您可能会进行初始传输以获取大量数据,然后在某些时候您需要进行最终切换以获取所有增量,然后您可以让应用程序在新集群上运行。
如果您使用 WANdisco 的产品进行数据传输,您可以同时使用两个集群,因为复制引擎使用 Paxos 算法协调更改。这可能会使增量迁移更容易。
与 DistCP 相比,您会注意到连续主动-主动复制之间存在差异的其他情况包括备份和灾难恢复以及摄取到多个数据中心。希望对您有所帮助。