Apache Flink 与 Apache 风暴基准测试

Apache Flink vs Apache storm benchmark

Apache Flink 和 apache storm 在基于性能比较的实时处理方面是否有真正的基准?

此外,如果我想进行这种性能比较并自己实现,是否有流 API(如 twitter API)提供比 twitter 更高的吞吐量并且是开源的?

谢谢!

有一些一般的流处理基准 - 但它们并不总是比您可以找到的 RDBMS 广泛适用或可访问。

我会尝试在这里列出一些对我有帮助的基准测试作品:

  • 最近为 Storm & Flink 实施的基准测试框架是 Yahoo Streaming Benchmark。它有一个使用 Kafka 和 Redis 的固定内部架构和一个预定义的 query/topology。无论如何,这是一个很好的起点。

  • Karimov et al 有一篇关于这些系统基准测试的好论文。值得一读,因为它确实有助于理解可能的指标。不幸的是,我找不到关于他们使用的工作负载(数据和查询)的任何实现或更多信息 - 我想说,这对理解更有帮助。

  • van Dongen et al 正在对几个流处理系统进行更深入的分析,并在 github 提供它们的源代码。不幸的是,没有 Storm 的实现。但无论如何,关于如何构建这样一个框架,有一些有趣的想法和贡献。

如您所见,流处理在设置和基准测试系统方面具有高度多样性...