了解 Azure 数据工厂管道中的开始和结束时间

Understanding start and end time in Azure data factory pipeline

我正在 Azure "Data Factory" 中设置管道,目的是从存储中获取平面文件并将它们加载到 Azure SQL 数据库中的表中。

此管道的模板指定我需要开始时间和结束时间,the tutorial 表示设置为 1 天。

我正在尝试理解这一点。如果它是 Linux 中的 CRON 作业或 Windows 服务器中的计划任务,那么我会简单地告诉它何时开始(即每天早上 6 点),无论它需要多长时间才能完成。

这让我想到了几个相关的问题:

我发现 a prior question 稍微阐明了如何执行频率而不是硬编码日期,但解决方案仍未回答我上面的问题。

1 天时间表只是一个示例,用于突出显示您期望 24 activity windows 如果频率设置为每小时 1 天的概念,如示例中所示。

为什么我需要指定结束时间?

您不必指定结束时间,如果您愿意,可以无限期地拥有管道 运行。但是,您可能出于业务原因设置结束时间,例如与每年的业务周期相吻合。整个管道的开始和结束时间适用于其中的活动集合。活动将根据您为 activity 和数据集的可用性设置的频率(每小时、每天等)运行。您还可以设置活动的开始时间,或者抵消或延迟它们(例如,如果您今天要处理昨天的数据),或者设置一个过去的开始日期来回填数据。

为什么硬编码为日期而不是频率?

管道开始和结束是日期而不是频率的原因是因为它是您的管道处于活动状态的总体日期间隔,并且各个处理活动处理它们的频率和时间 运行.

如果我不知道运行需要多长时间怎么办?

一旦活动开始,他们将运行完成。如果他们超过结束日期,管道将不会启动新活动。

如果以后设置的太远,会不会运行数据管道没有及时完成的​​风险?

不会,及时完成只与你的集群大小、数据量、并发设置有关。

如果我设置得太早,管道会不会断?

见上文

我们提供这种复杂的计划,以便您可以更灵活地编排多个服务,同时让 ADF 管理云资源,而不是仅仅启动一个 cron 作业。在我们的文档 https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

中有更多关于调度的细微信息

为什么我需要指定结束时间?

在 ADF1 中,如果指定开始时间,则必须指定结束时间。 如果您不指定开始和结束时间,没关系,您可以部署管道,但不会触发管道中的活动。