Google 数据流可以使用现有的虚拟机而不是临时创建的吗?
Can Google Data flow use existent VM and not temporary created ones?
同题,Dataflow可以不使用临时创建的VM实例,而是使用已经创建的VM实例吗?
在向 OP 询问了请求的原因并指出了回复之后,我将提供以下内容作为可能的答案:
Dataflow 背后的强大功能是在处理数据管道时实现高度并行。原始请求的 back-story 是 "something" 在 运行 作为本地 运行ner 时工作,但在使用 Dataflow 作为 运行ner 时无法按预期工作.这似乎导致了 OP 的思考 "we'll just run Dataflow using the local runner"。在我看来,这不是一个好主意。一个使用 local运行ner 进行开发和单元测试。本地 运行ner 不提供任何形式的水平缩放......它实际上只在一台机器上 运行s。
当一个 运行 在分布式数据流上进行管道作业时,它会根据需要创建尽可能多的工作人员,以在多台机器上合理地分配作业。如果作业随后希望生成结果作为文件输出……那么问题就变成了 "Where will that data be written?"。答案不能是相对于 Dataflow 作业 运行 位置的本地文件,因为根据定义,该作业是 运行 跨多台机器并且没有一台机器作为 [=21] 的概念=].为了解决这个问题,数据应该输出到Google Cloud Storage,这是一个所有机器都可见的公共存储区域。 OP 提出的相关问题描述了将数据写入 GCS 而不是本地文件(与本地 运行ner 一起发现)的潜在问题,但我相信 that 是问题所在待解决(即如何正确写入集中式 GCS 存储)而不是尝试使用单个 VM。数据流提供对数据流处理引擎(工作者)性质的零控制。它们在逻辑上是短暂的,并且 "just there" 用于处理数据流工作。
同题,Dataflow可以不使用临时创建的VM实例,而是使用已经创建的VM实例吗?
在向 OP 询问了请求的原因并指出了回复之后,我将提供以下内容作为可能的答案:
Dataflow 背后的强大功能是在处理数据管道时实现高度并行。原始请求的 back-story 是 "something" 在 运行 作为本地 运行ner 时工作,但在使用 Dataflow 作为 运行ner 时无法按预期工作.这似乎导致了 OP 的思考 "we'll just run Dataflow using the local runner"。在我看来,这不是一个好主意。一个使用 local运行ner 进行开发和单元测试。本地 运行ner 不提供任何形式的水平缩放......它实际上只在一台机器上 运行s。
当一个 运行 在分布式数据流上进行管道作业时,它会根据需要创建尽可能多的工作人员,以在多台机器上合理地分配作业。如果作业随后希望生成结果作为文件输出……那么问题就变成了 "Where will that data be written?"。答案不能是相对于 Dataflow 作业 运行 位置的本地文件,因为根据定义,该作业是 运行 跨多台机器并且没有一台机器作为 [=21] 的概念=].为了解决这个问题,数据应该输出到Google Cloud Storage,这是一个所有机器都可见的公共存储区域。 OP 提出的相关问题描述了将数据写入 GCS 而不是本地文件(与本地 运行ner 一起发现)的潜在问题,但我相信 that 是问题所在待解决(即如何正确写入集中式 GCS 存储)而不是尝试使用单个 VM。数据流提供对数据流处理引擎(工作者)性质的零控制。它们在逻辑上是短暂的,并且 "just there" 用于处理数据流工作。