将数据从 Hadoop(本地)加载到 Azure Data Lake 的不同方法

Different approaches to load the data from Hadoop(on-premise) to Azure Data Lake

我需要每 8 小时将数据从 Hadoop(这是本地 Hortonworks 集群)加载到 Azure Data Lake。你能告诉我——在实施解决方案时可以尝试哪些不同的方法吗?

  1. ADF [我们可以创建管道 activity 并安排它们] 还要别的吗 ?

谢谢, 亚拉文

我们在 this link 提供了高级选项。搜索:"Data stored in on-premise or IaaS Hadoop clusters".

但是,需要根据以下方面进行微调: 1. 您要移动多少数据、文件数量、文件大小等。 较小的文件将需要更长的时间来传输。 2. 从本地到 Azure 的网络连接 如果您有 ExpressRoute 可用,您将获得更好的体验。如果您只有 public 互联网连接,您将遇到网络瓶颈,而不是您使用的工具。

谢谢, 萨钦谢思 Azure Data Lake 项目经理。