Google Cloud Dataprep 可以监控新文件的 GCS 路径吗?

Can Google Cloud Dataprep monitor a GCS path for new files?

Google Cloud Dataprep 看起来不错,我们用它来手动导入静态数据集,但我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置时间表,但我在导入设置中看不到它如何处理新文件。

这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。

您可以通过在数据集期间单击文件夹左侧的 + 图标将 GCS 路径添加为数据集(参见屏幕截图)。当您为使用此数据集的流程设置计划作业时,该目录中的所有文件(包括新文件)都将在每个计划作业中选取 运行。

关于此的进一步更新。由于我在 2018 年 1 月 23 日提出的 new release of Dataprep 问题包括独立于 Dataprep 重新 运行 数据流作业的能力。

当您执行 Dataprep 作业时,它会生成一个 Dataflow 模板,您可以使用该模板在将来手动触发作业,并且它允许传入某些参数。

能够触发新文件的步骤(请注意这是测试版,因此 Google 可能会更改确切的过程):

  1. 创建您的流程并运行您的相关 flow/recipe。 Iterate/repeat 手动操作,直到您获得所需的食谱。当您满意 运行、运行 作业时(应该是附加数据而不是替换的作业,因为您可能想要附加新内容)。取消选中 "Profile results"(新功能)以减少开销可能是个好主意,因为这将是一项可重复的工作。
  2. 完成后,转到作业详细信息页面并单击 导出结果 按钮,您应该会在此处看到数据流模板的 link。复制文本。请注意,Dataflow 模板路径仅适用于在 2018 年 1 月 23 日发布后执行的作业,因为它是一项新功能。
  3. 然后您可以查看如何通过转到 DataFlow 并选择 CREATE JOB FROM TEMPLATE、选择 Custom 模板和粘贴到您的模板路径中。在那里你会看到你可以提供的参数,比如你的 GCS 输入路径
  4. 编写一个从 GCS 写入触发的 Google 云函数,并使用事件的详细信息按照上面的步骤 (3) 使用您的文件路径执行模板。