是否可以使用架构漂移/动态列将多个输入文件与不同的架构组合起来
Is it possible to combine multiple input files with different schemas using Schema Drift / Dynamic Columns
我有大约 20 个制表符分隔的输入文件。他们有大约 500 列,但每列都会略有不同。
接收器输出架构已知并将包含所有可能的输入列。
举个简单的例子:
文件 1
Name
Age
DOB
Nationality
Bob
21
01/01/1972
British
文件 2
Name
Nationality
NINO
Joe
British
AA995654A
文件 3
Name
DOB
Nationality
Sam
01/01/1990
British
是否有可能有一个具有多个输入的数据流,其中架构直到运行时才知道,这将处理输入文件中的更改,在这种情况下会输出:
Name
Age
DOB
NINO
Nationality
Bob
21
01/01/1972
NULL
British
Joe
NULL
NULL
AA995654A
British
Sam
NULL
01/01/1990
NULL
British
我查看了列模式匹配和模式漂移,但没有看到 how/if 可以实现这一点。
您要做的是使用派生列和您希望输入数据符合的通用模型在数据流中构建逻辑模型。该视频展示了实现此目的的示例:https://www.youtube.com/watch?v=K5tgzLjEE9Q
我有大约 20 个制表符分隔的输入文件。他们有大约 500 列,但每列都会略有不同。
接收器输出架构已知并将包含所有可能的输入列。
举个简单的例子:
文件 1
Name | Age | DOB | Nationality |
---|---|---|---|
Bob | 21 | 01/01/1972 | British |
文件 2
Name | Nationality | NINO |
---|---|---|
Joe | British | AA995654A |
文件 3
Name | DOB | Nationality |
---|---|---|
Sam | 01/01/1990 | British |
是否有可能有一个具有多个输入的数据流,其中架构直到运行时才知道,这将处理输入文件中的更改,在这种情况下会输出:
Name | Age | DOB | NINO | Nationality |
---|---|---|---|---|
Bob | 21 | 01/01/1972 | NULL | British |
Joe | NULL | NULL | AA995654A | British |
Sam | NULL | 01/01/1990 | NULL | British |
我查看了列模式匹配和模式漂移,但没有看到 how/if 可以实现这一点。
您要做的是使用派生列和您希望输入数据符合的通用模型在数据流中构建逻辑模型。该视频展示了实现此目的的示例:https://www.youtube.com/watch?v=K5tgzLjEE9Q