谁将分区加载到 Apache Spark 中的 RAM 中?

Who loads partitions into RAM in Spache Spark?

我有这个问题,但我无法在任何地方找到它的答案。

我正在使用以下行在 PySpark 应用程序中加载数据:

loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile) 

我的集群配置如下:

在 Apache Spark Standalone 中,将分区加载到 RAM 的过程是怎样的?

  1. 是不是每个executor访问driver的node RAM,然后从那里加载分区到自己的RAM? (存储 --> 驱动程序的 RAM --> 执行程序的 RAM)
  2. 是否每个执行器访问存储并加载到自己的RAM? (存储 --> 执行者的 RAM)

是不是 none 这些东西,我在这里遗漏了什么?我如何亲眼见证这个过程(监控工具,unix命令,Spark某处)?

任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。

第二种情况正确:

each executor accesses to storage and loads to its own RAM? (Storage --> executor's RAM)