现在在 apache beam 中默认启用 Shuffle 服务?
Shuffle service now enabled by default in apache beam?
在我们这边没有任何更改的情况下,我们使用 python 数据流 SDK 的作业已开始使用 shuffle 服务:
根据 docs:
To use the service-based Dataflow Shuffle in your batch pipelines, specify the following parameter:
--experiments=shuffle_mode=service
但是,我们没有启用这个标志。
这带来的一个主要影响是磁盘的默认大小已从我们工作人员的 250GB 变为 25GB。在一种情况下,我们 运行 磁盘不足 space 而工作人员正在启动导致挂起的工作永远不会完成。
问题是:
- 这是底层数据流环境的变化吗?
- 在哪里宣布此类更改?
这是底层数据流环境的变化吗?
是的,是的。
这些更改是在哪里宣布的?
我找不到有关此更改的任何公告。但应该更新 here。我会确保它是最新的。
自 2020 年 10 月起,批处理作业开始选择默认使用 Dataflow Shuffle。要选择不使用它,请指定 --experiments=shuffle_mode=appliance
.
在我们这边没有任何更改的情况下,我们使用 python 数据流 SDK 的作业已开始使用 shuffle 服务:
根据 docs:
To use the service-based Dataflow Shuffle in your batch pipelines, specify the following parameter:
--experiments=shuffle_mode=service
但是,我们没有启用这个标志。
这带来的一个主要影响是磁盘的默认大小已从我们工作人员的 250GB 变为 25GB。在一种情况下,我们 运行 磁盘不足 space 而工作人员正在启动导致挂起的工作永远不会完成。
问题是:
- 这是底层数据流环境的变化吗?
- 在哪里宣布此类更改?
这是底层数据流环境的变化吗?
是的,是的。
这些更改是在哪里宣布的?
我找不到有关此更改的任何公告。但应该更新 here。我会确保它是最新的。
自 2020 年 10 月起,批处理作业开始选择默认使用 Dataflow Shuffle。要选择不使用它,请指定 --experiments=shuffle_mode=appliance
.