现在在 apache beam 中默认启用 Shuffle 服务?

Shuffle service now enabled by default in apache beam?

在我们这边没有任何更改的情况下,我们使用 python 数据流 SDK 的作业已开始使用 shuffle 服务:

根据 docs:

To use the service-based Dataflow Shuffle in your batch pipelines, specify the following parameter: --experiments=shuffle_mode=service

但是,我们没有启用这个标志。

这带来的一个主要影响是磁盘的默认大小已从我们工作人员的 250GB 变为 25GB。在一种情况下,我们 运行 磁盘不足 space 而工作人员正在启动导致挂起的工作永远不会完成。

问题是:

  • 这是底层数据流环境的变化吗?

    是的,是的。

  • 这些更改是在哪里宣布的?

    我找不到有关此更改的任何公告。但应该更新 here。我会确保它是最新的。

自 2020 年 10 月起,批处理作业开始选择默认使用 Dataflow Shuffle。要选择不使用它,请指定 --experiments=shuffle_mode=appliance.