【发布时间】:2019-07-22 11:47:14
【问题描述】:
使用 DISTCP 在各种 ADLS 实例之间复制数据
大家好
希望你做得很好。 我们有一个将 ADLS 用作摄取过程的不同层的用例,只需要您就其可行性提出宝贵意见。
基础设施:将有两个名为 LAND 和 RAW 的 ADLS 实例。 LAND 实例将直接从源获取文件,而 RAW 实例将在 LAND 实例中通过验证后获取文件。我们还在 Azure 平台上托管了一个 Cloudera 集群,它将与两个 ADLS 实例建立连接。
过程:我们将有一组数据和控制文件登陆其中一个 ADLS 实例(比如登陆)。我们需要在 Cloudera 集群上运行 spark 代码,以在 Land ADLS 实例中存在的数据和控制文件之间执行计数验证。一旦验证成功,我们希望 distcp 命令将数据从 Land ADLS 实例复制到 Raw ADLS 实例。我们假设已经在 Cloudera 集群上安装了 Distcp 实用程序。
你们能否建议上述方法看起来不错? 我们的主要问题是 DISTCP 实用程序是否支持两个不同 ADLS 实例之间的数据移动? 我们还考虑了 ADLCopy 等其他选项,但 Distcp 似乎更好。
注意:我们没有考虑使用 Azure 数据工厂,因为它可能存在一定的安全挑战,尽管我们知道数据工厂最适合上述用例。
【问题讨论】:
标签: apache-spark cloudera azure-data-factory azure-data-lake distcp