【问题标题】:Backup of Data Lake Store数据湖存储备份
【发布时间】:2018-04-03 10:55:35
【问题描述】:

我正在为 Data Lake Store (DLS) 制定备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点,但它们都不能满足保留 POSIX ACL(DLS 用语中的权限)的要求。 PowerShell cmdlet 要求将数据从主 DLS 下载到 VM 并重新上传到辅助 DLS。 AdlCopy 工具仅适用于 Windows 10,不保留权限,也不支持跨区域复制数据(不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。 这使我想到了我的最后一个选择——Distcp。根据 Distcp 指南 (https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须从 HDInsight 运行。尽管它支持集群内和集群间复制,但我宁愿没有一个运行中的 HDInsight 集群仅用于备份操作。 我错过了什么吗?谁有更好的建议?

【问题讨论】:

    标签: azure hadoop azure-hdinsight azure-data-lake data-lake


    【解决方案1】:

    您的评估很全面。如果您想复制权限,这些确实是可用的选项。所以你必须选择其中之一,对不起。如果你真的想要一个可以复制权限的无服务器选项,那么 Azure 数据工厂就必须是它。您能否在这里创建一个反馈项目 - https://feedback.azure.com/forums/270578-data-factory

    谢谢, 萨钦谢斯 Azure 数据湖项目经理。

    【讨论】:

    • 你好萨钦。根据docs.microsoft.com/en-us/azure/data-lake-store/…,数据工厂也不会复制 ACL:“请记住,数据工厂仅复制文件夹层次结构和文件内容。您需要手动将旧帐户中使用的任何访问控制列表 (ACL) 应用到新帐户。您是否建议我打开功能请求以在数据工厂中保留 ACL?
    • 您好 Georgi,是的,我知道 Azure 数据工厂复制 ACL。因此要求您为它打开一个功能请求。这样,社区中志同道合的人也可以对请求进行投票,并在我们的优先级中提高它。很抱歉给您带来不便。
    猜你喜欢
    • 1970-01-01
    • 2019-04-22
    • 1970-01-01
    • 2021-03-26
    • 2018-11-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多