使用 Azure Batch 服务和 Spark Databricks 加载数据

Load Data Using Azure Batch Service and Spark Databricks

我有文件 Azure Blob 存储，我需要每天将其加载到数据湖中。我不清楚应该使用哪种方法（Azure Batch Account，Custom Activity 或 Databricks，Copy Activity）。请多多指教。

要将文件从 blob 存储加载到数据湖，我们可以使用数据工厂管道。由于需求是每天都做副本，所以我们必须安排一个触发器。

安排运行在 selected 时间内定期触发管道。每次管道启动时，它都会上传文件或目录。它取代了目标中的先前副本。因此，在特定日期对该文件在 blob 存储中所做的任何更改都将在下一次计划副本后反映在数据湖中 activity。

您也可以在管道中使用 Databricks Notebook 来执行相同的操作。 Databricks 笔记本包含复制逻辑，每次触发管道时，此笔记本都会运行。

您可以按照以下步骤进行复制：

打开数据工厂工作室，select“作者”选项卡。打开此选项卡后，您可以看到管道选项卡，您可以在其中创建新管道。
在属性选项卡下给一个合适的名字。您可以看到可以在其上创建管道的不同活动。根据您的要求 select Move & transform 选项卡中的 copy data 或 Databricks 选项卡中的 notebook。
创建必要的链接服务（用于复制的源和接收器 activity，用于笔记本的 Databricks 链接服务）。
提供所有信息后，验证管道以检查错误并发布。现在通过单击触发器选项添加一个新触发器（触发器现在只执行一次管道）。指定下图中显示的所有详细信息。

关键因素是无论使用哪种方法都必须安排触发器，以便管道根据您的要求定期重复出现（在您的情况下为 24 小时）。

您可以参考以下文档：