Azure 数据工厂:从 parquet 输入文件中筛选行并将结果输出到分隔文件

Azure Data Factory: filter rows from parquet input file and output the result to delimited file

我在 Azure 存储帐户中存储了 parquet 文件,我需要过滤它们并将它们复制到分隔文件中。我可以将文件作为一个整体进行复制,但我还没有弄清楚如何使用复制 Activity 来过滤输入文件。输入文件非常简单,只有几列,需要根据一列的值进行过滤。这是一个给你一个想法的例子:

Country  | Municipality  | City
cntry A  | mncplty 1     | cty 1
cntry A  | mncplty 1     | cty 2
cntry B  | mncplty 1     | cty 1
cntry C  | mncplty 1     | cty 1
cntry C  | mncplty 2     | cty 1
cntry C  | mncplty 2     | cty 2

我需要从 Country = "cntry A".

的输入文件中获取每一行

如果我在 SQL 中这样做,我会这样做:

INSERT INTO delimited
SELECT * FROM parquet
WHERE Country = "cntry A";

如何在 Azure 数据工厂中实现这一点?我可以只使用 Copy Activity 来做到这一点,还是我需要使用其他一些 activity?

为此使用 ADF 数据流过滤器转换。

https://docs.microsoft.com/en-us/azure/data-factory/data-flow-filter