ETL with Dataprep - 联合数据集

ETL with Dataprep - Union Dataset

我是 GCP 的新手,每天都在学习,我很喜欢这个平台。 我正在使用 GCP 的 dataprep 连接几个 csv 文件(具有相同的列结构),处理一些数据并写入 BigQuery。

我创建了一个存储空间 (butcket) 以将所有 60 个 csv 文件放入其中。在 dataprep 中,我可以定义一个数据集作为所有这些文件的联合吗?还是必须为每个文件创建一个数据集?

非常感谢您的时间和关注。

如果您将所有文件都放在 GCS 的一个目录中,则可以将该目录作为单个数据集导入。 process 与导入单个文件相同。不过,您必须确保目录中所有文件的列结构完全相同。

如果您为每个文件创建一个单独的数据集,当您使用 UNION page 连接它们时,它们的结构会更加灵活。

但是,如果您的用例只是将所有文件(~60)加载到Bigquery中的单个table而不进行任何转换,我建议只需使用 BigQuery load job. You can use a wildcard in the Cloud Storage URI to specify the files you want. Currently, BigQuery load jobs are free of charge,因此与使用 Dataprep 相比,这将是一个非常 cost-effective 的解决方案。