谁将分区加载到 Apache Spark 中的 RAM 中?
Who loads partitions into RAM in Spache Spark?
我有这个问题,但我无法在任何地方找到它的答案。
我正在使用以下行在 PySpark 应用程序中加载数据:
loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile)
我的集群配置如下:
- 我正在使用具有 3 个节点的 Spark 集群:1 个节点用于启动 master,其他 2 个节点每个 运行ning 1 个 worker。
- 我使用脚本从集群外部在登录节点上提交应用程序。
- 该脚本以我认为的集群部署模式提交 Spark 应用程序,然后在这种情况下,在我正在使用的 3 个节点中的任何一个节点上创建一个驱动程序 运行。
- 输入的 CSV 文件存储在全局可见的临时文件系统 (Lustre) 中。
在 Apache Spark Standalone 中,将分区加载到 RAM 的过程是怎样的?
- 是不是每个executor访问driver的node RAM,然后从那里加载分区到自己的RAM? (存储 --> 驱动程序的 RAM --> 执行程序的 RAM)
- 是否每个执行器访问存储并加载到自己的RAM? (存储 --> 执行者的 RAM)
是不是 none 这些东西,我在这里遗漏了什么?我如何亲眼见证这个过程(监控工具,unix命令,Spark某处)?
任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。
第二种情况正确:
each executor accesses to storage and loads to its own RAM? (Storage --> executor's RAM)
我有这个问题,但我无法在任何地方找到它的答案。
我正在使用以下行在 PySpark 应用程序中加载数据:
loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile)
我的集群配置如下:
- 我正在使用具有 3 个节点的 Spark 集群:1 个节点用于启动 master,其他 2 个节点每个 运行ning 1 个 worker。
- 我使用脚本从集群外部在登录节点上提交应用程序。
- 该脚本以我认为的集群部署模式提交 Spark 应用程序,然后在这种情况下,在我正在使用的 3 个节点中的任何一个节点上创建一个驱动程序 运行。
- 输入的 CSV 文件存储在全局可见的临时文件系统 (Lustre) 中。
在 Apache Spark Standalone 中,将分区加载到 RAM 的过程是怎样的?
- 是不是每个executor访问driver的node RAM,然后从那里加载分区到自己的RAM? (存储 --> 驱动程序的 RAM --> 执行程序的 RAM)
- 是否每个执行器访问存储并加载到自己的RAM? (存储 --> 执行者的 RAM)
是不是 none 这些东西,我在这里遗漏了什么?我如何亲眼见证这个过程(监控工具,unix命令,Spark某处)?
任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。
第二种情况正确:
each executor accesses to storage and loads to its own RAM? (Storage --> executor's RAM)