如何自定义 GCP 数据流模板?
How to Customize GCP Dataflow template?
我打算使用 Pub/Sub to Text Files on Cloud Storage 数据流模板进行少量自定义,例如在写入 Cloud Storage 之前处理(按摩)PubSub 消息。
我编写了 apache-beam 管道代码,但对如何部署它感到困惑。它消耗的参数将与 Pub/Sub to Text Files on Cloud Storage
完全相同
来自 documentation 我知道我可以使用 Google 提供的模板之一或创建您自己的模板。但是,除了创建我自己的模板之外,还有更好的方法来自定义 Google 提供的模板,因为它可以满足我的大部分要求
我认为我们处于孤注一掷的境地。唯一不需要创建自己的模板的定制是通过参数公开的,它们 do no accept Ptransforms.
由于您需要修改摄取的 Pub/sub 消息,因此您需要创建自己的 PTransform,将其集成到您的管道中并生成关联的模板。
鉴于这只是一个小小的添加,您最好的做法是克隆模板源并将它们复制到您自己的本地 Beam 项目中(或从克隆的项目中生成)。
!!不要修改示例模板本身。只是可用的代码示例 here!!
按照 documentation 中的说明生成模板。你叫得好
我打算使用 Pub/Sub to Text Files on Cloud Storage 数据流模板进行少量自定义,例如在写入 Cloud Storage 之前处理(按摩)PubSub 消息。
我编写了 apache-beam 管道代码,但对如何部署它感到困惑。它消耗的参数将与 Pub/Sub to Text Files on Cloud Storage
完全相同来自 documentation 我知道我可以使用 Google 提供的模板之一或创建您自己的模板。但是,除了创建我自己的模板之外,还有更好的方法来自定义 Google 提供的模板,因为它可以满足我的大部分要求
我认为我们处于孤注一掷的境地。唯一不需要创建自己的模板的定制是通过参数公开的,它们 do no accept Ptransforms.
由于您需要修改摄取的 Pub/sub 消息,因此您需要创建自己的 PTransform,将其集成到您的管道中并生成关联的模板。
鉴于这只是一个小小的添加,您最好的做法是克隆模板源并将它们复制到您自己的本地 Beam 项目中(或从克隆的项目中生成)。 !!不要修改示例模板本身。只是可用的代码示例 here!! 按照 documentation 中的说明生成模板。你叫得好