如何回填 Azure DataFactory 管道然后将其转换为 运行 计划?
How to backfill with an Azure DataFactory pipeline then convert it to a running schedule?
我有大量包含日志数据的 blob 需要复制到 azure sql table,并且会定期收到更多 blob。 Blob 以 [ORIGINALTARFILENAME].tar.gz.log
.
格式命名
如何使用数据工厂使其在不超时的情况下执行初始回填,然后定期将同一管道转换为 运行,这样就不会对 blob 进行两次处理?
本质上是:
- 创建一次性流程
- 在 VS 中打开进程
- 修改 json 以包含某种时间表
- 部署更改
这取决于您的数据的组织方式。数据工厂最适合可轻松划分为基于时间的切片的数据集。如果您的 ORIGINALTARFILENAME
包含创建 blob 的日期和时间,您只需一个管道即可以简单的方式实现您想要的。
您可以使用官方文档中的这个示例作为起点:https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/
然后将您的 activity startDate
设置得足够远,以拾取所有已经存在的斑点。回填将 运行 与新切片并行(增加 activity concurrency
将确保没有任何东西被饿死)并且您不必以任何特殊方式处理它,因为每个 blob 将恰好对应一个切片,因此只处理一次。
我有大量包含日志数据的 blob 需要复制到 azure sql table,并且会定期收到更多 blob。 Blob 以 [ORIGINALTARFILENAME].tar.gz.log
.
如何使用数据工厂使其在不超时的情况下执行初始回填,然后定期将同一管道转换为 运行,这样就不会对 blob 进行两次处理?
本质上是:
- 创建一次性流程
- 在 VS 中打开进程
- 修改 json 以包含某种时间表
- 部署更改
这取决于您的数据的组织方式。数据工厂最适合可轻松划分为基于时间的切片的数据集。如果您的 ORIGINALTARFILENAME
包含创建 blob 的日期和时间,您只需一个管道即可以简单的方式实现您想要的。
您可以使用官方文档中的这个示例作为起点:https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/
然后将您的 activity startDate
设置得足够远,以拾取所有已经存在的斑点。回填将 运行 与新切片并行(增加 activity concurrency
将确保没有任何东西被饿死)并且您不必以任何特殊方式处理它,因为每个 blob 将恰好对应一个切片,因此只处理一次。