Apache Storm 对比 Apache Samza 对比 Apache Spark

Apache Storm vs Apache Samza vs Apache Spark

我曾在 Storm 和 Spark 上工作过,但 Samza 还很新。

我不明白为什么在 Storm 已经可以进行实时处理的情况下引入 Samza。 Spark 在内存中提供近乎实时的处理,并具有其他非常有用的组件,如 graphx 和 mllib。

Samza 带来了哪些改进,还有哪些可能的进一步改进?

This 很好地总结了差异和优缺点。

我只想补充一点,实际上并不是 新的 Samza,它带来了一定的简单性,因为它坚持使用 Kafka 作为后端,而其他人则尝试以简单为代价变得更通用。 Samza 由创建 Kafka 的同一个人开创,他们也是 Kappa Architecture 背后的同一个人——主要是前 LinkedIn 的 Jay Kreps。太棒了。

此外,Samza 实时流、Spark Streaming 中的微批处理(与 Spark 不完全相同)和 Storm 中元组的 spouts 和 bolts 之间的编程模型完全不同。

None 其中 "better." 这完全取决于您的用例、团队的实力、API 与您的心智模型的匹配程度、支持质量等。

您还忘记了 Apache Flink and Twitter's Heron,这是他们制作的,因为 Storm 开始让他们失望。话又说回来,很少有人需要在 Twitter 的规模上运营。