使用 Azure 数据工厂中的数据流组合列形成多个 csv 文件
Combine columns form multiple csv files using data flow in azure data factory
首先,我知道存在类似的解决方案,但这个问题有些不同。
我有一个根据用户输入生成多个 csv 文件的过程 'n'(其中 n > 1 且 n <100)。意味着用户可以生成任意数量的文件。
这些文件具有相同的列:
file1 -> Col1 Col2 Col3 Col4 Col5 output
file2 -> Col1 Col2 Col3 Col4 Col5 output
file3 -> Col1 Col2 Col3 Col4 Col5 output
这些文件存储在带有一些数据路径的 azure blob 中。
我想读取所有文件并生成如下结果文件:
Col1 Col2 Col3 Col4 Col5 output1 output2 output3
有没有办法动态地做到这一点。即无需在数据流中创建多个源并加入它们,因为生成的文件取决于用户,我无法对其进行硬编码。
在这个解决过程中有多个步骤需要遵循
首先,我们需要将文件路径添加为一列
接下来根据文件路径对数据进行排名
对 table 执行主元运算。
实施基于三个主要步骤。
- 数据集的来源。(csv 文件列表)
- 排名 – 对列中的行进行排名
- 旋转——将行值旋转到列中并将列分组,最后聚合数据
我遵循的解决方案在这里。
首先,我知道存在类似的解决方案,但这个问题有些不同。
我有一个根据用户输入生成多个 csv 文件的过程 'n'(其中 n > 1 且 n <100)。意味着用户可以生成任意数量的文件。
这些文件具有相同的列:
file1 -> Col1 Col2 Col3 Col4 Col5 output
file2 -> Col1 Col2 Col3 Col4 Col5 output
file3 -> Col1 Col2 Col3 Col4 Col5 output
这些文件存储在带有一些数据路径的 azure blob 中。
我想读取所有文件并生成如下结果文件:
Col1 Col2 Col3 Col4 Col5 output1 output2 output3
有没有办法动态地做到这一点。即无需在数据流中创建多个源并加入它们,因为生成的文件取决于用户,我无法对其进行硬编码。
在这个解决过程中有多个步骤需要遵循 首先,我们需要将文件路径添加为一列 接下来根据文件路径对数据进行排名 对 table 执行主元运算。 实施基于三个主要步骤。
- 数据集的来源。(csv 文件列表)
- 排名 – 对列中的行进行排名
- 旋转——将行值旋转到列中并将列分组,最后聚合数据
我遵循的解决方案在这里。