使用 Azure 数据工厂中的数据流组合列形成多个 csv 文件

Combine columns form multiple csv files using data flow in azure data factory

首先,我知道存在类似的解决方案,但这个问题有些不同。

我有一个根据用户输入生成多个 csv 文件的过程 'n'(其中 n > 1 且 n <100)。意味着用户可以生成任意数量的文件。

这些文件具有相同的列:

file1 -> Col1 Col2 Col3 Col4 Col5 output
file2 -> Col1 Col2 Col3 Col4 Col5 output
file3 -> Col1 Col2 Col3 Col4 Col5 output

这些文件存储在带有一些数据路径的 azure blob 中。

我想读取所有文件并生成如下结果文件:

Col1 Col2 Col3 Col4 Col5 output1 output2 output3

有没有办法动态地做到这一点。即无需在数据流中创建多个源并加入它们,因为生成的文件取决于用户,我无法对其进行硬编码。

在这个解决过程中有多个步骤需要遵循 首先,我们需要将文件路径添加为一列 接下来根据文件路径对数据进行排名 对 table 执行主元运算。 实施基于三个主要步骤。

  1. 数据集的来源。(csv 文件列表)
  2. 排名 – 对列中的行进行排名
  3. 旋转——将行值旋转到列中并将列分组,最后聚合数据

我遵循的解决方案在这里。

https://docs.microsoft.com/en-us/answers/questions/773711/combine-columns-from-multiples-csv-files-in-azure.html?childToView=774749#comment-774749