Dataprep 将具有不同列数的文件导入数据集

Dataprep importing files with different number of columns into a dataset

我正在尝试创建一个参数化数据集,它从 GCS 导入文件并将它们放在一起。这一切都很好(导入数据>参数化)。

为了提供一些背景信息,我每天存储一个 .csv 文件,该文件的名称与该日期不同。

现在我的提供商碰巧在文件中添加了自上个月以来的新列。这意味着该日期之前的文件有 8 列,而从该日期开始有 9 列

但是,当我参数化时,Dataprep 仅考虑匹配的列(因此仅 8 列 )。理想情况下,我希望对来自没有此新列的文件的行进行空观察。

如何实现?

参数化数据集仅适用于 documentation 中提到的固定架构:

Avoid creating datasets with parameters where individual files or tables have differing schemas.

此固定模式是使用在创建 带参数的数据集期间找到的文件之一生成的。

如果架构已更改,则您可以通过使用参数编辑数据集并单击“保存”来“刷新”它。如果所有匹配文件都包含 9 列,您现在应该在转换器中看到 9 列。