Google 数据流可以使用现有的虚拟机而不是临时创建的吗？

Can Google Data flow use existent VM and not temporary created ones?

google-cloud-dataflow

同题，Dataflow可以不使用临时创建的VM实例，而是使用已经创建的VM实例吗？

在向 OP 询问了请求的原因并指出了回复之后，我将提供以下内容作为可能的答案：

Dataflow 背后的强大功能是在处理数据管道时实现高度并行。原始请求的 back-story 是 "something" 在运行作为本地运行ner 时工作，但在使用 Dataflow 作为运行ner 时无法按预期工作.这似乎导致了 OP 的思考 "we'll just run Dataflow using the local runner"。在我看来，这不是一个好主意。一个使用 local运行ner 进行开发和单元测试。本地运行ner 不提供任何形式的水平缩放......它实际上只在一台机器上运行s。

当一个运行在分布式数据流上进行管道作业时，它会根据需要创建尽可能多的工作人员，以在多台机器上合理地分配作业。如果作业随后希望生成结果作为文件输出……那么问题就变成了 "Where will that data be written?"。答案不能是相对于 Dataflow 作业运行位置的本地文件，因为根据定义，该作业是运行跨多台机器并且没有一台机器作为 [=21] 的概念=].为了解决这个问题，数据应该输出到Google Cloud Storage，这是一个所有机器都可见的公共存储区域。 OP 提出的相关问题描述了将数据写入 GCS 而不是本地文件（与本地运行ner 一起发现）的潜在问题，但我相信 that 是问题所在待解决（即如何正确写入集中式 GCS 存储）而不是尝试使用单个 VM。数据流提供对数据流处理引擎（工作者）性质的零控制。它们在逻辑上是短暂的，并且 "just there" 用于处理数据流工作。

Google 数据流可以使用现有的虚拟机而不是临时创建的吗？

Can Google Data flow use existent VM and not temporary created ones?

google-cloud-dataflow