使用 Azure Batch 服务和 Spark Databricks 加载数据

Load Data Using Azure Batch Service and Spark Databricks

我有文件 Azure Blob 存储,我需要每天将其加载到数据湖中。我不清楚应该使用哪种方法(Azure Batch Account,Custom Activity 或 Databricks,Copy Activity)。请多多指教。

要将文件从 blob 存储加载到数据湖,我们可以使用数据工厂管道。由于需求是每天都做副本,所以我们必须安排一个触发器。

安排 运行 在 selected 时间内定期触发管道。每次管道启动时,它都会上传文件或目录。它取代了目标中的先前副本。因此,在特定日期对该文件在 blob 存储中所做的任何更改都将在下一次计划副本后反映在数据湖中 activity。

您也可以在管道中使用 Databricks Notebook 来执行相同的操作。 Databricks 笔记本包含复制逻辑,每次触发管道时,此笔记本都会 运行。

您可以按照以下步骤进行复制:

  • 打开数据工厂工作室,select“作者”选项卡。打开此选项卡后,您可以看到管道选项卡,您可以在其中创建新管道。

  • 在属性选项卡下给一个合适的名字。您可以看到可以在其上创建管道的不同活动。根据您的要求 select Move & transform 选项卡中的 copy dataDatabricks 选项卡中的 notebook

  • 创建必要的链接服务(用于复制的源和接收器 activity,用于笔记本的 Databricks 链接服务)。

  • 提供所有信息后,验证管道以检查错误并发布。现在通过单击触发器选项添加一个新触发器(触发器现在只执行一次管道)。指定下图中显示的所有详细信息。

  • 触发器将从上述时间开始定期启动并执行管道。

关键因素是无论使用哪种方法都必须安排触发器,以便管道根据您的要求定期重复出现(在您的情况下为 24 小时)。

您可以参考以下文档: