Cloud Dataflow/Beam：侧输入限制

Cloud Dataflow/Beam: Side Input Limit

google-cloud-platform
apache-beam

SideInput 有点像 Spark 中的广播，这意味着您将数据缓存到本地工作计算机以进行快速查找，以减少 network/shuffle 开销。认为限制你可以拥有多少内存应该适合堆是合乎逻辑的。在 Dataflow documentation 中，它表示限制为 20K 分片。这是什么意思？一个碎片有多大？

要回答您的原始问题，您可以通过命令行上的 --workerCacheSizeMb 选项配置 Dataflow worker 完成的内存缓存量，如果您正在调用，则为 setWorkerCacheSizeMb以编程方式创建管道。默认为 100Mb。

Cloud Dataflow/Beam：侧输入限制

Cloud Dataflow/Beam: Side Input Limit

google-cloud-platform

apache-beam