Azure 数据流通用管理框架
Azure Data Flow generic curation framework
我想使用使用通用数据流管道的数据流创建数据管理框架。
我有多个数据源(原始表)要验证(在 10-100 之间)并作为精选表写入接收器:
对于每个原始数据提要,需要验证预期的架构(基于参数化文件名)
对于每个原始数据提要,需要提供具有验证逻辑的数据流脚本(某些列不应为空,某些列应具有特定的数据类型和值范围等)
使用 Python SDK,使用使用提供的参数准备的数据流脚本创建数据工厂和映射数据流管道(用于模式验证)
触发 python 为每个提要创建管道的代码,进行验证,将问题写入 Log Analytics 工作区并按特定计划删除资源。
有人做过这样的事吗?请问以上的最佳方法是什么?
我的总体目标是减少 validate/curate 数据提要的时间,因此我想为每个提要快速准备验证逻辑并创建 python 类 或 Powershell 脚本安排在一天中的特定时间 运行 在通用数据管道上使用它们。
非常感谢
CK
要验证架构,您可以拥有一个参考数据集,该数据集将具有与主数据集相同的架构(第一行)。然后需要对每个数据集使用“获取元数据”activity,获取每个数据集的结构。您的获取元数据 activity 将如下所示:
然后您可以使用 “If Condition” activity 使用 等逻辑函数 来匹配两个数据集的结构。你的 equal 表达式看起来像这样:
如果两个数据集的结构匹配,将执行您的下一个要求activity(例如将数据集复制到另一个容器)。
您的完整管道将如下所示:
您想要在插入的数据集上 运行 的脚本可以使用 “自定义” activity 执行。您再次需要为您的脚本创建链接服务及其对应的数据集,您将 运行 验证原始数据。请参考:https://docs.microsoft.com/en-us/azure/batch/tutorial-run-python-batch-azure-data-factory
根据您的特定管道安排管道 Triggers in Azure Data Factory. A schedule trigger 将处理您在任何特定时间自动触发管道的要求。
我想使用使用通用数据流管道的数据流创建数据管理框架。
我有多个数据源(原始表)要验证(在 10-100 之间)并作为精选表写入接收器:
对于每个原始数据提要,需要验证预期的架构(基于参数化文件名)
对于每个原始数据提要,需要提供具有验证逻辑的数据流脚本(某些列不应为空,某些列应具有特定的数据类型和值范围等)
使用 Python SDK,使用使用提供的参数准备的数据流脚本创建数据工厂和映射数据流管道(用于模式验证)
触发 python 为每个提要创建管道的代码,进行验证,将问题写入 Log Analytics 工作区并按特定计划删除资源。
有人做过这样的事吗?请问以上的最佳方法是什么?
我的总体目标是减少 validate/curate 数据提要的时间,因此我想为每个提要快速准备验证逻辑并创建 python 类 或 Powershell 脚本安排在一天中的特定时间 运行 在通用数据管道上使用它们。
非常感谢
CK
要验证架构,您可以拥有一个参考数据集,该数据集将具有与主数据集相同的架构(第一行)。然后需要对每个数据集使用“获取元数据”activity,获取每个数据集的结构。您的获取元数据 activity 将如下所示:
然后您可以使用 “If Condition” activity 使用 等逻辑函数 来匹配两个数据集的结构。你的 equal 表达式看起来像这样:
如果两个数据集的结构匹配,将执行您的下一个要求activity(例如将数据集复制到另一个容器)。
您的完整管道将如下所示:
您想要在插入的数据集上 运行 的脚本可以使用 “自定义” activity 执行。您再次需要为您的脚本创建链接服务及其对应的数据集,您将 运行 验证原始数据。请参考:https://docs.microsoft.com/en-us/azure/batch/tutorial-run-python-batch-azure-data-factory
根据您的特定管道安排管道 Triggers in Azure Data Factory. A schedule trigger 将处理您在任何特定时间自动触发管道的要求。