Cloud Dataflow/Beam:侧输入限制

Cloud Dataflow/Beam: Side Input Limit

SideInput 有点像 Spark 中的广播,这意味着您将数据缓存到本地工作计算机以进行快速查找,以减少 network/shuffle 开销。认为限制你可以拥有多少内存应该适合堆是合乎逻辑的。在 Dataflow documentation 中,它表示限制为 20K 分片。这是什么意思?一个碎片有多大?

要回答您的原始问题,您可以通过命令行上的 --workerCacheSizeMb 选项配置 Dataflow worker 完成的内存缓存量,如果您正在调用,则为 setWorkerCacheSizeMb以编程方式创建管道。默认为 100Mb。