CoGbkResult 有超过 10000 个元素,需要重复(可能很慢)
CoGbkResult has more than 10000 elements,reiteration (which may be slow) is required
我在一个确实比类似的作业(输入略有不同)运行速度更慢的作业中看到此消息。
会有重申是什么意思?它只影响性能还是意味着我的代码可能在相同的输入上 运行 两次(我的代码确实偶尔会产生副作用)。
谢谢!
G
这意味着加入的 PCollection 太大而无法保存在内存中,因此从中获取元素的效率低于整个集合放入内存时的效率。我们重申了CoGroupByKey的物化输入,但是你的代码没有重新运行,所以这只会影响性能。
值得注意的是,在 worker 失败的情况下,具有副作用的代码可能 运行 不止一次。
我在一个确实比类似的作业(输入略有不同)运行速度更慢的作业中看到此消息。
会有重申是什么意思?它只影响性能还是意味着我的代码可能在相同的输入上 运行 两次(我的代码确实偶尔会产生副作用)。
谢谢! G
这意味着加入的 PCollection 太大而无法保存在内存中,因此从中获取元素的效率低于整个集合放入内存时的效率。我们重申了CoGroupByKey的物化输入,但是你的代码没有重新运行,所以这只会影响性能。
值得注意的是,在 worker 失败的情况下,具有副作用的代码可能 运行 不止一次。