Data Lake Store 的备份
Backup of Data Lake Store
我正在研究 Data Lake Store (DLS) 的备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种实现此目的的方法,但其中 none 满足保留 POSIX ACL(DLS 用语中的权限)的要求。 PowerShell cmdlet 需要将数据从主要 DLS 下载到 VM,然后重新上传到辅助 DLS。 AdlCopy 工具仅适用于 Windows10,不保留权限,也不支持跨区域复制数据(并不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。
这让我想到了最后一个选择——Distcp。根据 Distcp 指南 (https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须来自 HDInsight 运行。尽管它同时支持集群内和集群间复制,但我宁愿没有 运行ning HDInsight 集群仅用于备份操作。
我错过了什么吗?大家有什么更好的建议吗?
您的评价很全面。如果您想复制权限,这些确实是可用的选项。所以你必须选择其中之一,抱歉。如果你真的想要一个可以复制权限的无服务器选项,那么 Azure 数据工厂就是它。您能否在这里创建一个反馈项目 - https://feedback.azure.com/forums/270578-data-factory?
谢谢,
萨钦谢斯
Azure Data Lake 项目经理。
我正在研究 Data Lake Store (DLS) 的备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种实现此目的的方法,但其中 none 满足保留 POSIX ACL(DLS 用语中的权限)的要求。 PowerShell cmdlet 需要将数据从主要 DLS 下载到 VM,然后重新上传到辅助 DLS。 AdlCopy 工具仅适用于 Windows10,不保留权限,也不支持跨区域复制数据(并不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。 这让我想到了最后一个选择——Distcp。根据 Distcp 指南 (https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须来自 HDInsight 运行。尽管它同时支持集群内和集群间复制,但我宁愿没有 运行ning HDInsight 集群仅用于备份操作。 我错过了什么吗?大家有什么更好的建议吗?
您的评价很全面。如果您想复制权限,这些确实是可用的选项。所以你必须选择其中之一,抱歉。如果你真的想要一个可以复制权限的无服务器选项,那么 Azure 数据工厂就是它。您能否在这里创建一个反馈项目 - https://feedback.azure.com/forums/270578-data-factory?
谢谢, 萨钦谢斯 Azure Data Lake 项目经理。