
How to find out the total size of data read and which data is belonging to which node in Spark

假设我正在使用 Apache spark 读取这样的数据集:

City | Region |  Population 
A    |     A1  |     150000
A     |    A2    |   50000
B     |    B1    |   250000
C     |    C1     |  350000


请问另一个问题,我如何知道 spark 作为数据帧读取的数据的总大小?



 Here executor nodes would only perform the operations defined in the rdd or dataframe transformations to a chunk of data that is available in partitions in that executor node.

我认为检查节点内数据的最佳方法可能是为驱动程序和执行程序启用日志记录,并在 rdd/df 操作中写入日志条目。这些日志可以发布到本地磁盘执行器的,你需要连接到每个执行器节点来验证属于每个节点的数据

  1. 如果你想知道读入dataframe的dataframe的总大小请参考下面