【发布时间】:2018-04-03 10:55:35
【问题描述】:
我正在为 Data Lake Store (DLS) 制定备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点,但它们都不能满足保留 POSIX ACL(DLS 用语中的权限)的要求。 PowerShell cmdlet 要求将数据从主 DLS 下载到 VM 并重新上传到辅助 DLS。 AdlCopy 工具仅适用于 Windows 10,不保留权限,也不支持跨区域复制数据(不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。 这使我想到了我的最后一个选择——Distcp。根据 Distcp 指南 (https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须从 HDInsight 运行。尽管它支持集群内和集群间复制,但我宁愿没有一个运行中的 HDInsight 集群仅用于备份操作。 我错过了什么吗?谁有更好的建议?
【问题讨论】:
标签: azure hadoop azure-hdinsight azure-data-lake data-lake