Azure 数据工厂 - 从 Data Lake Gen 2 JSON 文件中提取信息

Azure Data Factory - extracting information from Data Lake Gen 2 JSON files

我有一个 ADF 管道将原始日志数据作为 JSON 文件加载到 Data Lake Gen 2 容器中。

我们现在想从那些 JSON 文件中提取信息,我正试图找到从所述文件中获取信息的最佳方法。 我发现 Azure Data Lake Analytics 和 U-SQL 脚本非常强大而且便宜,但它们需要陡峭的学习曲线。

是否有推荐的方法来解析 JSON 文件并从中提取信息? Data Lake 表是否足以存储这些提取的信息,然后作为下游报告流程的来源?

最后,Azure 数据工厂是否能够解析嵌套数组 JSON?

我们可以解析 JSON 个文件并通过映射数据流中的 data flow. We can parse nested arrays JSONs via Flatten 转换提取信息。

Json 示例:

    {   
        "count": 1,
        "value": [{
                    "obj": 123,
                    "lists": [{
                                "employees": [{
                                    
                                        "name": "",
                                        "id": "001",
                                        "tt_1": 0,
                                        "tt_2": 4,
                                        "tt3_": 1
                                    },
                                    {
                                        "name": "",
                                        "id": "002",
                                        "tt_1": 10,
                                        "tt_2": 8,
                                        "tt3_": 1
                                    }]
                            }]
                    }]                  
    }

展平活动设置和输出预览:

映射数据流遵循提取、加载和转换 (ELT) 方法,并与 Azure 中的暂存数据集一起使用。目前,以下数据集可用于源转换。

所以我认为在 ADF 中使用数据流是提取信息并作为下游报告流程来源的最简单方法。