Azure 数据工厂 - 从 Data Lake Gen 2 JSON 文件中提取信息
Azure Data Factory - extracting information from Data Lake Gen 2 JSON files
我有一个 ADF 管道将原始日志数据作为 JSON 文件加载到 Data Lake Gen 2 容器中。
我们现在想从那些 JSON 文件中提取信息,我正试图找到从所述文件中获取信息的最佳方法。
我发现 Azure Data Lake Analytics 和 U-SQL 脚本非常强大而且便宜,但它们需要陡峭的学习曲线。
是否有推荐的方法来解析 JSON 文件并从中提取信息? Data Lake 表是否足以存储这些提取的信息,然后作为下游报告流程的来源?
最后,Azure 数据工厂是否能够解析嵌套数组 JSON?
我们可以解析 JSON 个文件并通过映射数据流中的 data flow. We can parse nested arrays JSONs via Flatten 转换提取信息。
Json 示例:
{
"count": 1,
"value": [{
"obj": 123,
"lists": [{
"employees": [{
"name": "",
"id": "001",
"tt_1": 0,
"tt_2": 4,
"tt3_": 1
},
{
"name": "",
"id": "002",
"tt_1": 10,
"tt_2": 8,
"tt3_": 1
}]
}]
}]
}
展平活动设置和输出预览:
映射数据流遵循提取、加载和转换 (ELT) 方法,并与 Azure 中的暂存数据集一起使用。目前,以下数据集可用于源转换。
所以我认为在 ADF 中使用数据流是提取信息并作为下游报告流程来源的最简单方法。
我有一个 ADF 管道将原始日志数据作为 JSON 文件加载到 Data Lake Gen 2 容器中。
我们现在想从那些 JSON 文件中提取信息,我正试图找到从所述文件中获取信息的最佳方法。 我发现 Azure Data Lake Analytics 和 U-SQL 脚本非常强大而且便宜,但它们需要陡峭的学习曲线。
是否有推荐的方法来解析 JSON 文件并从中提取信息? Data Lake 表是否足以存储这些提取的信息,然后作为下游报告流程的来源?
最后,Azure 数据工厂是否能够解析嵌套数组 JSON?
我们可以解析 JSON 个文件并通过映射数据流中的 data flow. We can parse nested arrays JSONs via Flatten 转换提取信息。
Json 示例:
{
"count": 1,
"value": [{
"obj": 123,
"lists": [{
"employees": [{
"name": "",
"id": "001",
"tt_1": 0,
"tt_2": 4,
"tt3_": 1
},
{
"name": "",
"id": "002",
"tt_1": 10,
"tt_2": 8,
"tt3_": 1
}]
}]
}]
}
映射数据流遵循提取、加载和转换 (ELT) 方法,并与 Azure 中的暂存数据集一起使用。目前,以下数据集可用于源转换。
所以我认为在 ADF 中使用数据流是提取信息并作为下游报告流程来源的最简单方法。