Spark 对于非迭代分析仍然有优势吗?

Is Spark still advantageous for non-iterative analytics?

Spark 在内存计算和缓存中使用以减少复杂分析的延迟,但这主要用于 "iterative algorythms", 如果我需要执行更基本的分析,假设每个元素可能是一组数字,我想寻找标准偏差小于 'x' 的元素,与常规集群计算相比,Spark 仍然会减少延迟(没有 in内存计算)?假设我在每种情况下都使用相同的商品硬件。

它使用 none 这些额外机制与顶级排序框架并列,所以我认为这是足够的理由。但是,您还可以 运行 流式传输、绘图或机器学习,而无需切换齿轮。然后,您补充说,您应该尽可能使用 DataFrames,并且您可以获得超出我所知道的任何其他框架的查询优化。所以,是的,几乎在所有情况下,Spark 都是明确的选择。

spark 的一个好处是它的数据源 API 将它与 SparkSQL 相结合,使您能够查询和连接不同的数据源。 SparkSQL 现在包括体面的优化器——催化剂。正如 spark 中核心 (RDD) 的答案之一所述,您还可以包含流数据、应用机器学习模型和图形算法。所以是的。