在 Copy Activity 中过滤 blob 数据
Filter blob data in Copy Activity
我有一个副本 Activity,可将数据从 Blob 复制到 Azure Data Lake。 Blob 由带有事件中心触发器的 Azure 函数填充。 Blob 文件附加有 UNIX 时间戳,这是事件中心中的事件排队时间。 Azure 数据工厂每小时触发一次以合并文件并将它们移至数据湖。
在源数据集中,我有开箱即用的 UTC 时间上次修改日期过滤器。我可以使用它,但它限制我在 blob 中使用上次修改日期。我想使用我自己的日期过滤器并决定我想在何处应用这些过滤器。这在数据工厂中可能吗?如果是的话,你能给我指出正确的方向吗?
无论如何,对于 ADF,我想到的唯一想法是使用 Look Up Activity ,ForEach Activity and Filter Activity 的组合。也许它有点复杂。
1.Use查找以从 blob 文件中检索数据。
2.Use ForEach Activity 循环结果并设置数据时间过滤器。
3.Inside ForEach Activity,做复制任务。
请参阅此 blog 以获得一些线索。
查看您对现在完成的所有任务的描述,我建议您了解一下 Azure Stream Analytics Service. No matter the data source is Event Hub or Azure Blob Storage, ASA supports them as input. And it supports ADL as output。
您可以创建一个作业来配置输入和输出,然后使用流行的 SQL language to filter your data however you want.Such as Where operator or DataTime Functions。
我有一个副本 Activity,可将数据从 Blob 复制到 Azure Data Lake。 Blob 由带有事件中心触发器的 Azure 函数填充。 Blob 文件附加有 UNIX 时间戳,这是事件中心中的事件排队时间。 Azure 数据工厂每小时触发一次以合并文件并将它们移至数据湖。
在源数据集中,我有开箱即用的 UTC 时间上次修改日期过滤器。我可以使用它,但它限制我在 blob 中使用上次修改日期。我想使用我自己的日期过滤器并决定我想在何处应用这些过滤器。这在数据工厂中可能吗?如果是的话,你能给我指出正确的方向吗?
无论如何,对于 ADF,我想到的唯一想法是使用 Look Up Activity ,ForEach Activity and Filter Activity 的组合。也许它有点复杂。
1.Use查找以从 blob 文件中检索数据。
2.Use ForEach Activity 循环结果并设置数据时间过滤器。
3.Inside ForEach Activity,做复制任务。
请参阅此 blog 以获得一些线索。
查看您对现在完成的所有任务的描述,我建议您了解一下 Azure Stream Analytics Service. No matter the data source is Event Hub or Azure Blob Storage, ASA supports them as input. And it supports ADL as output。
您可以创建一个作业来配置输入和输出,然后使用流行的 SQL language to filter your data however you want.Such as Where operator or DataTime Functions。