Dataprep 将具有不同列数的文件导入数据集

Dataprep importing files with different number of columns into a dataset

我正在尝试创建一个参数化数据集，它从 GCS 导入文件并将它们放在一起。这一切都很好（导入数据>参数化）。

为了提供一些背景信息，我每天存储一个 .csv 文件，该文件的名称与该日期不同。

现在我的提供商碰巧在文件中添加了自上个月以来的新列。这意味着该日期之前的文件有 8 列，而从该日期开始有 9 列。

但是，当我参数化时，Dataprep 仅考虑匹配的列（因此仅 8 列 ）。理想情况下，我希望对来自没有此新列的文件的行进行空观察。

如何实现？

参数化数据集仅适用于 documentation 中提到的固定架构：

Avoid creating datasets with parameters where individual files or tables have differing schemas.

此固定模式是使用在创建带参数的数据集期间找到的文件之一生成的。

如果架构已更改，则您可以通过使用参数编辑数据集并单击“保存”来“刷新”它。如果所有匹配文件都包含 9 列，您现在应该在转换器中看到 9 列。