有没有办法在 Azure 数据流或任何其他选项中对不同数量的列进行自定义动态映射来实现这一点？

Question

我的来源（ADLS 中的 CSV 文件）有 header 记录（3 列）、详细记录（5 列）和尾部记录（2 列）。 header 记录的列数少于详细记录。当我尝试将此 csv 文件转换为 parquet 时，我在 ADF 中使用复制 activity 时出现列计数错误。所以我尝试使用数据流进行映射，但仍然只考虑三列并忽略详细记录中的其他两列。所以请让我知道如何使用数据流或任何其他 Azure 服务来实现这一点。

示例数据

1|~filename|~30122020
2|~Mark|~cse|~378|~2020
2|~John|~|~430|~2019
99|~3

Answer 1

数据工厂会将第一行视为列架构。就目前而言，我们无法使用数据工厂活动或数据流来做到这一点。

Answer 2

阅读整行（不指定分隔符）。然后使用派生转换（使用 split 或 regexSplit 函数）检查它是 header 还是详细记录

有没有办法在 Azure 数据流或任何其他选项中对不同数量的列进行自定义动态映射来实现这一点？

Is there any way to do Custom dynamic mapping of different number of columns in Azure dataflow or any other options to achieve this?

azure-data-factory

azure-data-lake

azure-data-factory-2

azure-databricks

示例数据