Flink 中 GroupCombine 的用例

Usecases for GroupCombine in flink

有人可以提供一些关于 Apache flink 中分组数据集的 GroupCombine 的实际用例的信息。

参考:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/dataset_transformations.html#groupcombine-on-a-grouped-dataset

GroupCombine 用于优化目的。与 GroupReduce 不同,它不进行任何数据混洗,而仅适用于单个分区。这有助于减少要发送到下一个减少操作的数据。简单来说,就是一个Local Reduce操作。

如果您熟悉 Hadoop 中的 Map Reduce 函数,我们在那里也有组合器操作。 Flink 中的这个 GroupCombine 的工作方式完全相同。

这是 Hadoop 中 Combiner 的可视化表示。

希望对您有所帮助!