Azure 数据流通用管理框架

Azure Data Flow generic curation framework

我想使用使用通用数据流管道的数据流创建数据管理框架。

我有多个数据源(原始表)要验证(在 10-100 之间)并作为精选表写入接收器:

有人做过这样的事吗?请问以上的最佳方法是什么?

我的总体目标是减少 validate/curate 数据提要的时间,因此我想为每个提要快速准备验证逻辑并创建 python 类 或 Powershell 脚本安排在一天中的特定时间 运行 在通用数据管道上使用它们。

非常感谢

CK

要验证架构,您可以拥有一个参考数据集,该数据集将具有与主数据集相同的架构(第一行)。然后需要对每个数据集使用“获取元数据”activity,获取每个数据集的结构。您的获取元数据 activity 将如下所示:

然后您可以使用 “If Condition” activity 使用 等逻辑函数 来匹配两个数据集的结构。你的 equal 表达式看起来像这样:

如果两个数据集的结构匹配,将执行您的下一个要求activity(例如将数据集复制到另一个容器)。 您的完整管道将如下所示:

您想要在插入的数据集上 运行 的脚本可以使用 “自定义” activity 执行。您再次需要为您的脚本创建链接服务及其对应的数据集,您将 运行 验证原始数据。请参考:https://docs.microsoft.com/en-us/azure/batch/tutorial-run-python-batch-azure-data-factory

根据您的特定管道安排管道 Triggers in Azure Data Factory. A schedule trigger 将处理您在任何特定时间自动触发管道的要求。