映射数据流可以使用参数化的 Parquet 数据集吗？

Question

感谢光临。

我正在尝试在 Azure Synapse 工作区中开发映射数据流（因此我相信这也适用于 ADFv2），它采用 Delta 输入并将其直接转换为 Parquet 格式的输出，使用指向具有参数化文件系统和文件夹的 ADLSGen2 的 Parquet 数据集的相关细节，与硬编码文件系统和文件夹相反，因为这将需要创建太多数据集数据湖中感兴趣的文件夹太多。

映射数据流：

当我尝试将其用作映射数据流中的源时，调试配置（以及父管道配置）将适时要求我输入这些参数，我很乐意输入这些参数。

然后，一旦我尝试调试或运行管道，我在不到 1 秒的时间内收到此错误：

{
"Message": "ErrorCode=InvalidTemplate, ErrorMessage=The expression 'body('DataFlowDebugExpressionResolver')?.50_DeltaToParquet_xxxxxxxxx?.ParquetCurrent.directory' is not valid: the string character '_' at position '43' is not expected."
}

RunId: xxx-xxxxxx-xxxxxx

此错误消息不是很具体，不知道我应该看哪里。

我尝试用硬编码的数据集替换参数化的 Parquet 数据集，它在调试和管道 -运行模式下都能完美运行。但是，这并不能满足我的需求，即能够重用我的 Parquet 数据集，而不必为每个 Data Lake 文件夹创建特定的数据集。

数据湖文件系统中也没有空间。请参考这些看起来很像我的生产环境的参数：

文件系统：prodfs001
目录：synapse/workspace01/parquet/dim_mydim

提前感谢大家，伙计们！

Answer 1

目录名synapse/workspace01/parquet/dim_mydim在dim_mydim中有一个_，你可以试试把下划线换掉，或者你可以用dimmydim测试一下是否可以。

映射数据流可以使用参数化的 Parquet 数据集吗？

Can a Mapping Data Flow use a parameterized Parquet dataset?

parquet

azure-data-factory

azure-data-flow

azure-data-lake-gen2

azure-synapse