Google 数据流定价

Google Dataflow pricing

我最近开始调查一个新项目的数据流(很棒的东西,到目前为止给我留下了深刻的印象!)但是今天早上我在开发控制台中检查计费页面时进行了现实检查。

我上周开始玩 Dataflow,使用插件通过 Eclipse 启动所有管道执行。到目前为止,我已经启动了以下 42 个作业:

Streaming ----- Nov 17, 2015, 3:20:37 PM ----- 12 min 20 sec
Streaming ----- Nov 17, 2015, 1:45:49 PM ----- 1 hr 36 min
Streaming ----- Nov 17, 2015, 1:25:25 PM ----- 21 min 0 sec
Streaming ----- Nov 17, 2015, 9:30:36 AM ----- 25 min 14 sec
Streaming ----- Nov 16, 2015, 4:44:09 PM ----- 29 min 27 sec
Streaming ----- Nov 16, 2015, 4:40:16 PM ----- 3 min 48 sec
Streaming ----- Nov 16, 2015, 4:37:32 PM ----- 3 min 33 sec
Streaming ----- Nov 16, 2015, 3:58:46 PM ----- 38 min 53 sec
Streaming ----- Nov 16, 2015, 3:46:18 PM ----- 12 min 59 sec
Streaming ----- Nov 16, 2015, 2:05:31 PM ----- 1 hr 41 min
Streaming ----- Nov 15, 2015, 4:28:06 PM ----- 21 hr 35 min
Streaming ----- Nov 13, 2015, 5:09:22 PM ----- 2 days 20 hr
Streaming ----- Nov 13, 2015, 4:30:34 PM ----- 2 days 21 hr
Streaming ----- Nov 13, 2015, 2:52:40 PM ----- 2 days 23 hr
Streaming ----- Nov 13, 2015, 2:42:27 PM ----- 10 min 20 sec
Streaming ----- Nov 13, 2015, 12:21:33 PM ----- 2 hr 19 min
Streaming ----- Nov 13, 2015, 12:12:24 PM ----- 9 min 24 sec
Streaming ----- Nov 13, 2015, 11:55:30 AM ----- 17 min 54 sec
Streaming ----- Nov 13, 2015, 11:51:49 AM ----- 4 min 28 sec
Streaming ----- Nov 13, 2015, 11:35:06 AM ----- 14 min 36 sec
Streaming ----- Nov 13, 2015, 11:32:51 AM ----- 3 min 2 sec
Streaming ----- Nov 13, 2015, 11:20:53 AM ----- 12 min 8 sec
Streaming ----- Nov 12, 2015, 2:11:08 PM ----- 20 hr 48 min
Streaming ----- Nov 12, 2015, 2:07:59 PM ----- 6 min 52 sec
Streaming ----- Nov 12, 2015, 1:24:33 PM ----- 50 min 15 sec
Streaming ----- Nov 12, 2015, 12:46:15 PM ----- 1 hr 28 min
Streaming ----- Nov 12, 2015, 12:43:59 PM ----- 1 hr 30 min
Streaming ----- Nov 12, 2015, 12:41:17 PM ----- 1 hr 33 min
Streaming ----- Nov 12, 2015, 12:36:44 PM ----- 5 min 32 sec
Streaming ----- Nov 12, 2015, 12:03:06 PM ----- 34 min 23 sec
Streaming ----- Nov 12, 2015, 11:55:00 AM ----- 8 min 55 sec
Streaming ----- Nov 12, 2015, 11:23:38 AM ----- 31 min 47 sec
Streaming ----- Nov 12, 2015, 11:07:25 AM ----- 16 min 30 sec
Streaming ----- Nov 12, 2015, 9:54:50 AM ----- 1 hr 11 min
Streaming ----- Nov 11, 2015, 5:10:36 PM ----- 16 hr 44 min
Streaming ----- Nov 11, 2015, 4:57:15 PM ----- 13 min 52 sec
Streaming ----- Nov 11, 2015, 4:48:52 PM ----- 3 min 59 sec
Streaming ----- Nov 11, 2015, 4:41:16 PM ----- 11 min 49 sec
Streaming ----- Nov 11, 2015, 4:32:01 PM ----- 21 min 6 sec
Batch ----- Nov 10, 2015, 3:36:09 PM ----- 1 min 37 sec
Batch ----- Nov 10, 2015, 2:41:28 PM ----- 1 min 48 sec
Batch ----- Nov 10, 2015, 2:37:17 PM ----- 1 min 39 sec

这只是使用少量数据进行的测试,因此从 PubSub 获取一些元素以了解 SDK 和环境的工作原理并没有什么疯狂的。

Google Compute  Dataflow Stream Processing VM running on Standard Intel N1 4 VCPU   51,192 Minutes  0.78
Google Compute  Standard Intel N1 4 VCPU running in NA  51,192 Minutes  0.64

(为简化起见,我将忽略每个持续时间不到 2 分钟的 3 个批处理作业,它们与以下内容无关)。

从所有这些,有几个问题:

1) 我是否遗漏了经过的时间? 51 192 分钟是 853.2 小时,远远超过我所有作业执行时间的总和。我确实知道实例 运行ning 至少需要 10 分钟才能计费,但即便如此,我离 51 192 分钟还差得很远。给定持续时间,853.2 小时 x 11 GCEU x 0.015 $/GCEU/hours = 140.78$ 与帐单一致,但我想更好地了解如何计算总持续时间。编辑:51 192 分钟大约是我所有工作执行总和的 3 倍。这个因子3和我配置的3个worker有关系吗?

2) 是否可以配置管道使用的实例类型?对于我正在执行的那种测试,使用 n1-standard-4 实例对于我尝试做的事情来说确实有点过分了。这可以在 Eclipse 插件或控制台中配置吗? 编辑:找到这个问题的答案

3) 我以前从来没有真正注意到每次我开始工作时都有 3 名工人开始工作。我实际上从未配置过与此相关的任何内容。我想这是在 Eclipse 中创建 运行 配置时的默认工作人员数量? 编辑:也找到了答案

感谢您试用 Dataflow - 我们很高兴您喜欢它!

  1. 耗用时间衡量 GCE VM 使用情况。正如您在编辑中提到的,3 个工作人员 = 3 个 VM,因此与实际 VM 时间相关的因子为 3。
  2. 您可以设置 --workerMachineType 选项,如 Setting Other Cloud Pipeline Options 中所述。
  3. 3 是与管道关联的默认工作器数。它可以用 --numWorkers 明确指定,尽管这会阻止 autoscaling 适当调整工人的数量。如那里所述,您可以使用 --maxNumWorkers 来限制上限,同时允许自动缩放以调整实际工作人员数量。

您可能希望在开发期间使用本地运行器在您的机器上执行管道。听起来您正在测试的数据量足够小,您不需要 运行 的服务规模。您可以使用 PubSubIO 创建一个有界源,该源将通过调用 maxNumRecords or maxReadTime.

与本地运行器一起工作