现在在 apache beam 中默认启用 Shuffle 服务？

Shuffle service now enabled by default in apache beam?

在我们这边没有任何更改的情况下，我们使用 python 数据流 SDK 的作业已开始使用 shuffle 服务：

根据 docs:

To use the service-based Dataflow Shuffle in your batch pipelines, specify the following parameter: --experiments=shuffle_mode=service

但是，我们没有启用这个标志。

这带来的一个主要影响是磁盘的默认大小已从我们工作人员的 250GB 变为 25GB。在一种情况下，我们运行磁盘不足 space 而工作人员正在启动导致挂起的工作永远不会完成。

问题是：

自 2020 年 10 月起，批处理作业开始选择默认使用 Dataflow Shuffle。要选择不使用它，请指定 --experiments=shuffle_mode=appliance.