Cassandra/HDFS 和 Spark 中的数据移动

Data motion in Cassandra/HDFS and Spark

在设计分布式存储和分析架构时,运行分析引擎与数据节点位于同一台机器上是否是一种常见的使用模式? 具体来说,直接在 Cassandra/HDFS 个节点上 运行 Spark/Storm 有意义吗?

我知道 HDFS 上的 MapReduce 具有这种使用模式,因为 according to Hortonworks,YARN 最大限度地减少了数据移动。我不知道这些其他系统是否也是如此。我想这是因为它们似乎可以相互插入,但我似乎无法在网上找到有关此的任何信息。

我是这个主题的新手,所以任何资源或答案将不胜感激。

谢谢

是的,在 Cassandra 节点上 运行 Spark 可以最大限度地减少机器之间的数据移动。

当您从 Cassandra table 创建 RDD 时,RDD 分区将从每台机器本地的令牌范围创建。

下面是关于 Spark Cassandra 连接器这个主题的link演讲:

Cassandra and Spark: Optimizing for Data Locality

正如摘要中所说:"There are only three things that are important in doing analytics on a distributed database: Locality, locality and locality."