如何回填 Azure DataFactory 管道然后将其转换为 运行 计划?

How to backfill with an Azure DataFactory pipeline then convert it to a running schedule?

我有大量包含日志数据的 blob 需要复制到 azure sql table,并且会定期收到更多 blob。 Blob 以 [ORIGINALTARFILENAME].tar.gz.log.

格式命名

如何使用数据工厂使其在不超时的情况下执行初始回填,然后定期将同一管道转换为 运行,这样就不会对 blob 进行两次处理?

本质上是:

  1. 创建一次性流程
  2. 在 VS 中打开进程
  3. 修改 json 以包含某种时间表
  4. 部署更改

这取决于您的数据的组织方式。数据工厂最适合可轻松划分为基于时间的切片的数据集。如果您的 ORIGINALTARFILENAME 包含创建 blob 的日期和时间,您只需一个管道即可以简单的方式实现您想要的。

您可以使用官方文档中的这个示例作为起点:https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

然后将您的 activity startDate 设置得足够远,以拾取所有已经存在的斑点。回填将 运行 与新切片并行(增加 activity concurrency 将确保没有任何东西被饿死)并且您不必以任何特殊方式处理它,因为每个 blob 将恰好对应一个切片,因此只处理一次。