是否可以使用架构漂移/动态列将多个输入文件与不同的架构组合起来

Is it possible to combine multiple input files with different schemas using Schema Drift / Dynamic Columns

我有大约 20 个制表符分隔的输入文件。他们有大约 500 列,但每列都会略有不同。

接收器输出架构已知并将包含所有可能的输入列。

举个简单的例子:

文件 1

Name Age DOB Nationality
Bob 21 01/01/1972 British

文件 2

Name Nationality NINO
Joe British AA995654A

文件 3

Name DOB Nationality
Sam 01/01/1990 British

是否有可能有一个具有多个输入的数据流,其中架构直到运行时才知道,这将处理输入文件中的更改,在这种情况下会输出:

Name Age DOB NINO Nationality
Bob 21 01/01/1972 NULL British
Joe NULL NULL AA995654A British
Sam NULL 01/01/1990 NULL British

我查看了列模式匹配和模式漂移,但没有看到 how/if 可以实现这一点。

您要做的是使用派生列和您希望输入数据符合的通用模型在数据流中构建逻辑模型。该视频展示了实现此目的的示例:https://www.youtube.com/watch?v=K5tgzLjEE9Q