Spark 对于非迭代分析仍然有优势吗？

Is Spark still advantageous for non-iterative analytics?

Spark 在内存计算和缓存中使用以减少复杂分析的延迟，但这主要用于 "iterative algorythms"，如果我需要执行更基本的分析，假设每个元素可能是一组数字，我想寻找标准偏差小于 'x' 的元素，与常规集群计算相比，Spark 仍然会减少延迟（没有 in内存计算）？假设我在每种情况下都使用相同的商品硬件。

它使用 none 这些额外机制与顶级排序框架并列，所以我认为这是足够的理由。但是，您还可以运行流式传输、绘图或机器学习，而无需切换齿轮。然后，您补充说，您应该尽可能使用 DataFrames，并且您可以获得超出我所知道的任何其他框架的查询优化。所以，是的，几乎在所有情况下，Spark 都是明确的选择。

spark 的一个好处是它的数据源 API 将它与 SparkSQL 相结合，使您能够查询和连接不同的数据源。 SparkSQL 现在包括体面的优化器——催化剂。正如 spark 中核心 (RDD) 的答案之一所述，您还可以包含流数据、应用机器学习模型和图形算法。所以是的。

Spark 对于非迭代分析仍然有优势吗？

Is Spark still advantageous for non-iterative analytics?

analytics

latency

apache-spark

spark-streaming