如何对 Google 云存储中的多个文件使用 google 数据准备?

how to use google Data Prep for several files located in Google Cloud Storage?

我从 GCS 中导入了一个文本文件,并使用 DataPrep 做了一些准备工作,然后将它们作为 CSV 文件写回 GCS。我想要做的是,对该存储桶中的所有文本文件执行此操作有没有一种方法可以同时对该存储桶(在 GCS 中)中的所有文件执行此操作?

下面是我的程序。我 select 从 GCS 编辑了一个文本文件(不能 select 多个文本文件)并做了一些准备工作(重命名列、创建新列等)。然后将其作为 CSV 写回 GCS。

您可以使用 带参数的数据集 功能一次加载多个文件。

然后您可以使用通配符 select 您想要加载的所有文件。 请注意,所有文件都需要具有相同的架构(相同的列)才能正常工作。

有关如何使用此功能的详细信息,请参阅 https://cloud.google.com/dataprep/docs/html/Create-Dataset-with-Parameters_118228628

另一个解决方案是将所有文件添加到一个文件夹*,然后使用大 + 按钮加载该文件夹中的所有文件。

[*] 技术上在 GCS 上使用相同的前缀