对多个数据集重复使用相同的配方
Reuse the same recipe for multiple datasets
我想使用我用于一个数据集的相同配方,其余所有数据集的 datasets.The structure/headers 都是相同的。有没有办法导入或重复使用相同的配方而无需重新执行所有步骤?
在流视图页面中,您可以"swap" 配方的数据源。如果你想对不同的数据源使用不同的后续步骤,你可以"make a copy"配方,然后交换复制配方的数据源。
有关详细信息,请参阅 https://cloud.google.com/dataprep/docs/html/Flow-View-Page_57344806
我才刚刚开始使用 DataPrep,但据我了解,您可以在开始时将所有源输入配方,然后在最后将它们分叉出来,并使用一个时间表 运行 每个一.
假设您有五个结构相同但代表不同销售市场的输入文件。导入所有五个,如果没有 market
列,则使用配方 derive
具有静态值的新列。
UNION
所有这些都进入配方(因此核心配方接收一个文件)。
在配方的末尾,为 运行s KEEP
的每个输出添加一个新配方,只保留该市场的数据。这将生成五个输出。
安排这些食谱中的每一个,当安排 运行s 时,您将获得五个不同的输出 - 每个输入一个。
我想使用我用于一个数据集的相同配方,其余所有数据集的 datasets.The structure/headers 都是相同的。有没有办法导入或重复使用相同的配方而无需重新执行所有步骤?
在流视图页面中,您可以"swap" 配方的数据源。如果你想对不同的数据源使用不同的后续步骤,你可以"make a copy"配方,然后交换复制配方的数据源。
有关详细信息,请参阅 https://cloud.google.com/dataprep/docs/html/Flow-View-Page_57344806
我才刚刚开始使用 DataPrep,但据我了解,您可以在开始时将所有源输入配方,然后在最后将它们分叉出来,并使用一个时间表 运行 每个一.
假设您有五个结构相同但代表不同销售市场的输入文件。导入所有五个,如果没有 market
列,则使用配方 derive
具有静态值的新列。
UNION
所有这些都进入配方(因此核心配方接收一个文件)。
在配方的末尾,为 运行s KEEP
的每个输出添加一个新配方,只保留该市场的数据。这将生成五个输出。
安排这些食谱中的每一个,当安排 运行s 时,您将获得五个不同的输出 - 每个输入一个。