Azure 数据工厂:从 parquet 输入文件中筛选行并将结果输出到分隔文件
Azure Data Factory: filter rows from parquet input file and output the result to delimited file
我在 Azure 存储帐户中存储了 parquet 文件,我需要过滤它们并将它们复制到分隔文件中。我可以将文件作为一个整体进行复制,但我还没有弄清楚如何使用复制 Activity 来过滤输入文件。输入文件非常简单,只有几列,需要根据一列的值进行过滤。这是一个给你一个想法的例子:
Country | Municipality | City
cntry A | mncplty 1 | cty 1
cntry A | mncplty 1 | cty 2
cntry B | mncplty 1 | cty 1
cntry C | mncplty 1 | cty 1
cntry C | mncplty 2 | cty 1
cntry C | mncplty 2 | cty 2
我需要从 Country = "cntry A"
.
的输入文件中获取每一行
如果我在 SQL 中这样做,我会这样做:
INSERT INTO delimited
SELECT * FROM parquet
WHERE Country = "cntry A";
如何在 Azure 数据工厂中实现这一点?我可以只使用 Copy Activity 来做到这一点,还是我需要使用其他一些 activity?
为此使用 ADF 数据流过滤器转换。
https://docs.microsoft.com/en-us/azure/data-factory/data-flow-filter
我在 Azure 存储帐户中存储了 parquet 文件,我需要过滤它们并将它们复制到分隔文件中。我可以将文件作为一个整体进行复制,但我还没有弄清楚如何使用复制 Activity 来过滤输入文件。输入文件非常简单,只有几列,需要根据一列的值进行过滤。这是一个给你一个想法的例子:
Country | Municipality | City
cntry A | mncplty 1 | cty 1
cntry A | mncplty 1 | cty 2
cntry B | mncplty 1 | cty 1
cntry C | mncplty 1 | cty 1
cntry C | mncplty 2 | cty 1
cntry C | mncplty 2 | cty 2
我需要从 Country = "cntry A"
.
如果我在 SQL 中这样做,我会这样做:
INSERT INTO delimited
SELECT * FROM parquet
WHERE Country = "cntry A";
如何在 Azure 数据工厂中实现这一点?我可以只使用 Copy Activity 来做到这一点,还是我需要使用其他一些 activity?
为此使用 ADF 数据流过滤器转换。
https://docs.microsoft.com/en-us/azure/data-factory/data-flow-filter